Ich habe einen Datenrahmen mit Textentfernen Reihen identisch oder Wort permutierte Sätze aus einem Datenrahmen in R enthalten
TERM
good morning
hello
morning good
you're welcome
hello
hi
Ich möchte alle Duplikate heraus filtern und alle mit den gleichen Worten, sondern in einer anderen Reihenfolge . So dass ich bekomme:
TERM
good morning
hello
you're welcome
hi
Ich weiß, wie man den Abstand von zwei Wörtern mit stringdist bekommen.
stringdist(stringOriginal,stringCompare,method=qgram)
Aber da ich sehr langen Datenrahmen ich nicht durch alle Einträge in einer Schleife mag.
Wie kann ich ähnliche Begriffe herausfiltern?
Thx Joerg
Sie könnten eine Brute-Force-Methode mit 'strsplit' und den eingestellten Funktionen' Vereinigung ersinnen 'und' schneiden' oder 'setdiff'. – lmo
Es wäre nützlich, die Frage so zu modifizieren, dass sie ein kleines Beispiel für die Art des Datenrahmens enthält, mit dem Sie beginnen, zusammen mit der gewünschten Ausgabe. –
Mit 'stringdist' könnten Sie folgendes tun:' library (stringdist); sdm <- stringdistmatrix (DF $ TERM, DF $ TERM, Methode = "qgram", useNames = "Strings"); sdm [! dupliziert (sdm),] ' –