In einer Textdatei mit vielen Zeilen muss ich alle Zeilen extrahieren, die mit ähnlichen Wörtern beginnen und nicht eindeutig sind. Ich suche nach den Zeilen, die gleich beginnen - sie haben vielleicht den gleichen Inhalt (doppelte Zeilen) oder einen etwas anderen Inhalt (nach dem ersten Wort). Ich hoffe, dieses Beispiel erklärt es. Dies wäre ein Beispiel aus einer solchen Datei sein:Textdatei für ähnliche Zeilen filtern
hungarian-american
hungarian-german lied
hungarian-german
hungarian-speaking areas
hungarian-speaking regions
hungarica
hungary
hungary and slovakia
hungary and slovakia
hungry i
hunnis, william
hunt, l.
Ich bin für die Zeilen suchen:
hungarian-american
hungarian-german lied ms
hungarian-german ms
hungarian-speaking areas
hungarian-speaking regions
hungary
hungary and slovakia
hungary and slovakia
in diesem Beispiel Ausrangierte sind
hungarica
hungry i
hunnis, william
hunt, l.
, weil sie einzigartig sind (die beginnen nicht mit ähnlichen Wörtern).
Wie könnte ich versuchen, dieses Problem anzugehen? Ich bin vertraut mit Python und Regular Expressions, aber vielleicht gibt es eine viel einfachere Lösung? Danke für Ihre Hilfe!
wie funktioniert 'hungary' in gewünschte Liste aufgeführt – Bijoy
Leider @Bijoy, ich verstehe nicht, was Sie fragen. – kbecker87