Ich bin vertraut mit Python nltk.metrics.distance
-Modul, das häufig verwendet wird, um Bearbeitungsabstand von zwei Zeichenfolge zu berechnen.Token-basierte Bearbeitungsentfernung in Python?
Ich interessiere mich für eine Funktion, die eine solche Entfernung berechnet, aber nicht char-weise wie normalerweise aber Token-weise. Damit meine ich, dass Sie nur ganze Token ersetzen/hinzufügen/löschen können (statt Zeichen).
Beispiel regelmäßiger Editierdistanz und meine gewünschten Token versehen Version:
> char_dist("aa bbbb cc",
"aa b cc")
3 # add 'b' character three-times
> token_dist("aa bbbb cc",
"aa b cc")
1 # replace 'bbbb' token with 'b' token
Gibt es bereits eine Funktion, dass token_dist
in Python berechnen kann? Ich würde lieber etwas verwenden, das bereits implementiert und getestet wurde, als meinen eigenen Code zu schreiben. Danke für Tipps.
great! Danke – petrbel