Ich arbeite an einem System, um Texte auf Englisch zu analysieren: Ich benutze Stanford-core nlp, um Sätze von ganzen Dokumenten zu machen und Token von Sätzen zu machen. Ich benutze auch den maximalen Tagger, um Token pos-Tags zu erhalten. Nun, wenn ich bedenke, dass ich dieses Korpus benutze, um einen überwachten Klassifikator zu bauen, wäre es gut, wenn ich jedes Wort wie 're, s, havin, sayin' usw. zu seiner Standardform ersetzen könnte (sind, haben, Sprichwort). Ich habe nach einer englischen Wörterbuchdatei gesucht, aber ich weiß nicht, wie man es benutzt. Es gibt so viele verschiedene Fälle, die zu bedenken sind, dass ich nicht glaube, dass es eine leichte Aufgabe ist, zu realisieren: Gibt es eine ähnliche Arbeit oder ein ganzes Projekt, das ich verwenden könnte?Wie man englische abgekürzte Form zu ihrem Wörterbuchformular
Antwort
Ideen:
I) verwenden Zeichenfolge bearbeiten Abstand auf einer Untergruppe von Text und versuchen Worte übereinstimmen, die in dem Wörterbuch nicht existieren Editierdistanz gegen bestehende Wörter im Wörterbuch verwenden.
II) Das Schlüsselmerkmal vieler dieser Beispiele ist, dass sie nur ein Zeichen von der korrekten Schreibweise unterscheiden. Also schlage ich vor, dass Sie für diese Wörter, die Sie nicht mit einem Wörterbucheintrag übereinstimmen, versuchen, alle englischen Zeichen an die Vorder- oder Rückseite hinzuzufügen und das resultierende Wort in einem Wörterbuch nachzuschlagen. Das ist am Anfang sehr teuer, aber wenn Sie diese Rechtschreibfehler in einer Nachschlagetabelle verfolgen, werden Sie irgendwann 99,99% der üblichen Rechtschreibfehler (oder wie immer Sie sie nennen) in Ihrer Nachschlagetabelle haben tatsächliche korrekte Schreibweise.
III) Trainiere ein 2-Gramm- oder 3-Gramm-Sprachmodell auf richtigem und sauberem Englisch (z. B. Zeitungsartikel), führe es dann über den gesamten Korpus, den du hast, und suche nach den Wörtern, die deine Sprache sind Modell betrachtet als unbekannte Wörter (was bedeutet, dass sie sie in der Trainingsphase nicht gesehen haben), was das höchste wahrscheinliche Wort gemäß dem Sprachmodell ist. Höchstwahrscheinlich wird die Sprachmodell-Top-10-Vorhersage das richtige buchstabierte Wort sein.
- 1. Swift "-Schalter Fall" abgekürzte Syntax
- 2. Wie positioniert man eine React-Komponente relativ zu ihrem Elternteil?
- 3. Wie erkennt man, wenn Edittext englische Zeichen hat
- 4. Wie man über nicht-englische Dateinamen in PHP iteriert
- 5. Wie isoliert man nicht englische Wörter durch Leerzeichen in Lua?
- 6. Wie übersetzt man diese englische Aussage in relationale Algebra?
- 7. Wie verwendet man nicht-englische Zeichenfolge in NSURL?
- 8. Wie man arabische Nummer in englische Nummer umwandelt
- 9. Wie sortiert man nicht-englische Strings mit nspredicate?
- 10. Wie analysieren einfache englische Sätze
- 11. Wie zeichnet man eine Form
- 12. wpf navigate form zu form?
- 13. Benutzerdefinierte Form zu PopupWindow
- 14. , wie man immer eine Datei in Ihrem Projektordner jetzt
- 15. Natürliche englische Sprache Wörter
- 16. Wie unterstützt man mehrere Android-Version in Ihrem Code?
- 17. Wie bekomme ich die englische Wortdatenbank?
- 18. Wie aus dem Arabischen ins Englische übersetzen?
- 19. Wie speichern Sie nicht englische Zeichen?
- 20. Handgeschriebene englische Schriftzeichen Daten ... Woher man bekommt (und frei verfügbar)
- 21. Wie formuliert man englische Grapheme aus einer Zeichenkette in Matlab, indem man die Zeitkomplexität reduziert?
- 22. Wie man diese Form in HTML macht?
- 23. Wie behandelt man Zahlen in generischer Form?
- 24. Wie ändert man die Form des Punktdiagramms?
- 25. Wie man Yii2 Form Felder nebeneinander anordnet
- 26. Redux-Form: Wie behandelt man mehrere Tasten?
- 27. Wie man Parallelogramm Form Hintergrund erstellt?
- 28. Wie macht man eine rotierende Form dick?
- 29. Wie Passwortfeld in Zend-Form zu überprüfen?
- 30. Englische und/oder finnische Textvalidierung