Ich benutze Python mit Nltk. Ich muss etwas Text in Englisch ohne irgendwelche Leerzeichen verarbeiten, aber die Funktion word_tokenize in nltk konnte mit solchen Problemen nicht umgehen. So, wie man Text ohne Leerzeichen while. Gibt es irgendwelche Werkzeuge in Python?Wie werden kontinuierliche Wörter ohne Leerzeichen-Begrenzer in Tokens umgewandelt?
Antwort
Mir sind solche Tools nicht bekannt, aber die Lösung Ihres Problems hängt von der Sprache ab.
Für die türkische Sprache können Sie den eingegebenen Text Buchstabe für Buchstabe scannen und Buchstaben zu einem Wort zusammenfassen. Wenn Sie sicher sind, dass das akkumulierte Wort ein gültiges Wort aus einem Wörterbuch bildet, speichern Sie es als separates Token, löschen Sie den Puffer, um ein neues Wort zu akkumulieren, und setzen Sie den Prozess fort.
Sie können dies für Englisch versuchen, aber ich nehme an, dass Sie Situationen finden können, in denen das Ende eines Wortes ein Anfang eines Wörterbuchworts sein kann, und das kann Ihnen einige Probleme verursachen.
vielleicht könnte die Viterbi algorithm helfen? Keine Gewissheiten ... aber wahrscheinlich besser als es manuell zu tun.
Diese Antwort auf eine andere Frage SO (und die andere Antwort High-Abstimmung) könnte helfen: https://stackoverflow.com/a/481773/583834
- 1. Können kontinuierliche Zufallsvariablen mit scipy in diskrete umgewandelt werden?
- 2. Wie wird der Perl-Quellcode in Tokens umgewandelt?
- 3. Wie werden negative Elemente ohne eine Schleife in null umgewandelt?
- 4. Wie kann ein C-String mit Regex- und Boost-Transformations-Iteratoren in Tokens umgewandelt werden?
- 5. Kontinuierliche Spracherkennung Android - ohne Lücken
- 6. Wie man Tokens zählt?
- 7. Wie werden führende Leerzeichen in Tabs umgewandelt?
- 8. Beste und effizienteste Art Tokens Wörter zu zählen
- 9. Kontinuierliche Abfragen werden nicht ausgeführt
- 10. contextthemewrapper kann nicht in Aktivität umgewandelt werden
- 11. Warum werden Parenscript-Funktionen in Kleinbuchstaben umgewandelt?
- 12. sbyte [] kann magisch in Byte umgewandelt werden []
- 13. ImageView kann nicht in PhotoView umgewandelt werden
- 14. GStringImpl kann nicht in java.lang.String umgewandelt werden
- 15. java.lang.Thread kann nicht in java.util.concurrent.ForkJoinWorkerThread umgewandelt werden
- 16. Wie werden binäre Daten in JavaScript in Zeichen umgewandelt?
- 17. Wie werden Array-Elemente in PHP in Strings umgewandelt?
- 18. wie Zeilen in Spalten umgewandelt werden in R
- 19. kann nicht in android.widget umgewandelt werden. RelativeLayout
- 20. android.widget.Button kann nicht in android.widget.EditText umgewandelt werden
- 21. org.apache.xml.serializer.ToXMLSAXHandler kann nicht in org.apache.xml.serializer.SerializationHandler umgewandelt werden
- 22. BigDecimal kann nicht in BigDecimal umgewandelt werden
- 23. EmptyList kann nicht in clojure.lang.IFn umgewandelt werden
- 24. weblogic.net.http.SOAPHttpsURLConnection kann nicht in javax.net.ssl.HttpsURLConnection umgewandelt werden
- 25. org.springframework.security.core.userdetails.User kann nicht in "MyUserDetails" umgewandelt werden
- 26. SpringServletContainerInitializer kann nicht in javax.servlet.ServletContainerInitializer umgewandelt werden
- 27. java.lang.Class kann nicht in java.lang.reflect.ParameterizedType umgewandelt werden
- 28. ByteBufferAsShortBuffer kann nicht in java.nio.FloatBuffer umgewandelt werden
- 29. Integer kann nicht in Float umgewandelt werden
- 30. Kontinuierliche Tastatureingabe in C
Warum gibt es keine Räume? Was ist die Domain? – Jared
Wie identifizieren Sie ein Wort? –
Wenn Sie den Text nicht Buchstabe für Buchstabe scannen und alle möglichen Kombinationen von fortlaufenden Zeichen testen, muss ein Delimiter vorhanden sein. – Yotam