Ich habe mit einer Reihe von Stemmern und Lemmatizern in NLTK gespielt, aber keiner tut was ich will. Ich habe eine Reihe von Wörtern wie "Radiologe", "Radiologie", "Kardiologe", "Kardiologie", usw. ... wo ich möchte, dass der * * * * * * * * * * * * * * * * * * * * * * * * * * * Ich habe versucht, PorterStemer, SnowballStemer und WordNet Lemmatizer in Python, aber nichts sendet diese in den gleichen Eimer. Es scheint, als ob Stemming dies erreichen sollte, und das sind keine unglaublich ungewöhnlichen Worte. Wie würden Sie das gewünschte Ergebnis erreichen?Wie man Wörter wie * ologist und * ology erhält, um zur gleichen Wurzel zu lemmatizieren/Stamm zu sein?
1
A
Antwort
0
So ähnlich?
>>> s = 'cardiology'
>>> s = s[:-5] if s.endswith('ology') else s
>>> s = s[:-7] if s.endswith('ologist') else s
>>> s
'cardi'
>>> s = 'cardiologist'
>>> s = s[:-5] if s.endswith('ology') else s
>>> s = s[:-7] if s.endswith('ologist') else s
>>> s
'cardi'
1
Haben Sie sich Morphessor angesehen? Es verfügt über eine Reihe von Morph-Segmentierungsalgorithmen. Anscheinend ist die Art der Analyse, die Sie suchen, mit diesem Tool möglich. Hier ist der Link [1]: http://asr.aalto.fi/morfessordemo/
Verwandte Themen
- 1. Wie man Hudson erhält, um vollständigen Selenbericht zu zeigen?
- 2. Wie man einen Bildschirmleser erhält, um zu stoppen, andere Inhalte zu lesen und zu lesen
- 3. Wie man Firebug erhält, um auf Ausnahme zu brechen?
- 4. Wie erhält man VirtualEnv TensorFlow, um in PyCharm zu arbeiten?
- 5. Ersetzen aller Wörter zur gleichen Zeit
- 6. Wie man den Etikettehersteller erhält, um alles nicht zu fälschen?
- 7. wie URL mit Wurzel zu verschmelzen
- 8. Wie sed verwenden, um alle Wörter zu finden und zu umgeben, nachdem ein mit Anführungszeichen
- 9. wordpress Umschreibungsabfrage um reservierte Wörter zu entfernen
- 10. Wie man Daten mit Node.js zu Firebase erhält und setzt?
- 11. Wie erhält man Gerätehöhe und -breite zur Laufzeit?
- 12. wie lua config-Datei zu machen, um sicher zu sein
- 13. wie Python zu verwenden, um mit zwei Dateien zur gleichen Zeit zu behandeln
- 14. Wie man Named Pipe und Socket zur gleichen Zeit in Python zu hören
- 15. Was macht wc? Und wie benutzt man es, um Wörter in einer Datei zu zählen?
- 16. Wie kann man die gleichen Wörter in PHP zählen?
- 17. Wie ausgewählter Text erweitert werden, um ganze Wörter zu enthalten
- 18. Wie erhält man eindeutige Suchergebnisse?
- 19. Wie UPDATE und SELECT zur gleichen Zeit
- 20. Java: Datenstruktur, um viele Wörter zu speichern
- 21. `scipy.optimize.root` schnelle Wurzel zu finden
- 22. PHP, wie man Anwendung Wurzel findet?
- 23. Wie genaue Wörter in Laravel zu überprüfen?
- 24. Wie man die Wörter Identifikation in das Vokabular der Wörter erhält, die das Wort gegeben werden?
- 25. Wie fügt man Wörter zu Atom's Rechtschreibwörterbuch hinzu?
- 26. Wie konvertiert man die Datumseingabe eines Charakters, um mit dplyr und RPostgreSQL verwendbar zu sein?
- 27. Silverlight: Wie erhält man ProcessorCount?
- 28. Wie erhält man Länder und Währungen?
- 29. Wie Deeplearning4j word2vec mit Spark zu integrieren, um Wörter in seine Vektordarstellung zu konvertieren?
- 30. Wie erhält man Schriftgrößen?
Komm schon, du weißt das ist nicht was ich meine. – Eli
Es hängt wirklich davon ab, wie Ihre Daten aussehen, um die beste Lösung zu finden, die vorhandenen Lemmatizer/Stemmer zu "hacken". Eine repräsentative Stichprobe Ihrer Daten zu teilen würde helfen, die Antwort zu verbessern =) – alvas