Ich versuche alle Kombinationen von Übereinstimmungen/Fuzzy Matching ersten Zeichenfolgenspalte in den zweiten Zeichenfolgenspalte in einem Datenrahmen zu zählenR Word Count - passend zu allen Kombination von einer Zeichenkette in eine andere Zeichenkette
Eg:
Zeichenfolge1 = " USA Kanada UK Australien Japan Indien“ string2 = "USA Kanada Indien UK Australien China Brasilien Frankreich"
Erwartete Ergebnisse
Einzelwortspiel count = 5 (USA Canad a UK Australien Indien) abgestimmt
Zwei Wortspiel count = 2 (USA Kanada, Großbritannien Australien) aufeinander folgende Wörter Zählung
Drei Wort match = 0
Vier Wortspiel count = 0
abgestimmtFünf Wortspiel count = 0
Sechs Wortspiel count = 0
Insgesamt = 5 + 2 = 7
Dank für Ihre Zeit danken und groß, jemand kann helfen, diese Funktion zu schreiben oder mich jedes bestehendes Paket sollte
sucht 'ngram' im Paket' tm' und 'quanteda' – HubertL
Eine naive Version von Wort Matching -' intersect (strsplit (string1, "\\ s +") [[1]], strsplit (string2, "\\ s +") [[1]]) '- aber Sie sind wahrscheinlich besser dran mit einem formellen Paket. – thelatemail
Vielen Dank HubertL für die Paketnummer – prav