python-dedupe

4Hitze

1Antwort

Geringe Ressourcenverbrauch bei der Verwendung von Deduplizierungspython

Ich muss Dubletten in einem großen Dataset finden, also teste ich dedupe Python-Bibliothek. Ich weiß, dass es für kleine Datensätze empfohlen wird, also dachte ich, dass die Verwendung einer guten Mas

0Hitze

1Antwort

Dedupe.io unscicPairs() hält die gleiche Reihe von unsicheren Paaren zurück

Ich verwende Dedupe.io lib für die Deduplizierung von Datensätzen. Ich habe ein Problem, dass während der Trainingsschritte, uncertainPairs() method of Dedupe class hält die gleiche Reihe von Datensät

1Hitze

2Antwort

Verwenden Sie Python-Deduplizierungsbibliothek, um alle Übereinstimmungen mit einem unordentlichen Dataset zurückzugeben

Zuerst, wenn Sie die Dedupe-Bibliothek für Python nicht gesehen haben: es ist fantastisch. Ähnlich wie TensorFlow ist es eine großartige Möglichkeit, maschinelles Lernen (wie mich) in die Massen zu br