Hier einige Strichcodedaten aus einer pandas
DatenbankWie verdächtige Barcode (wie 123456) Daten
737318 Sikat Botol Pigeon 4902508045506 75170
737379 Natur Manual Breast Pump 8850851860016 75170
738753 Sunlight 1232131321313 75261
739287 Bodymist bodyshop 1122334455667 75296
739677 Bodymist ale 123456789
Ich mag zu beseitigen Daten löschen, die verdächtig ist (dh hat zu viele wiederholt oder aufeinanderfolgende Ziffern) wie 1232131321313
, 1122334455667
, 1234567890123
, etc. Ich bin sehr tolerant gegenüber falsch negativen, aber ich möchte so viel wie möglich falsch positive (schlechte Barcodes) vermeiden.
Sorry, das für Pandas kein Job ist. –
Ich denke, ich brauche etwas maschinelles Lernen, aber ich habe keine Ahnung –
Es scheint mir, dass Sie Zahlen identifizieren möchten, die sehr "nicht zufällig" sind oder die sich irgendwie von den anderen in dieser Spalte unterscheiden. Sie könnten besser einen vorläufigen Rat von einer der statistischen Quellen wie https://stats.stackexchange.com/ erhalten. –