2016-04-09 3 views
1
ersetzt

Ich arbeite an einem System, um Texte auf Englisch zu analysieren: Ich benutze Stanford-core nlp, um Sätze von ganzen Dokumenten zu machen und Token von Sätzen zu machen. Ich benutze auch den maximalen Tagger, um Token pos-Tags zu erhalten. Nun, wenn ich bedenke, dass ich dieses Korpus benutze, um einen überwachten Klassifikator zu bauen, wäre es gut, wenn ich jedes Wort wie 're, s, havin, sayin' usw. zu seiner Standardform ersetzen könnte (sind, haben, Sprichwort). Ich habe nach einer englischen Wörterbuchdatei gesucht, aber ich weiß nicht, wie man es benutzt. Es gibt so viele verschiedene Fälle, die zu bedenken sind, dass ich nicht glaube, dass es eine leichte Aufgabe ist, zu realisieren: Gibt es eine ähnliche Arbeit oder ein ganzes Projekt, das ich verwenden könnte?Wie man englische abgekürzte Form zu ihrem Wörterbuchformular

Antwort

1

Ideen:

I) verwenden Zeichenfolge bearbeiten Abstand auf einer Untergruppe von Text und versuchen Worte übereinstimmen, die in dem Wörterbuch nicht existieren Editierdistanz gegen bestehende Wörter im Wörterbuch verwenden.

II) Das Schlüsselmerkmal vieler dieser Beispiele ist, dass sie nur ein Zeichen von der korrekten Schreibweise unterscheiden. Also schlage ich vor, dass Sie für diese Wörter, die Sie nicht mit einem Wörterbucheintrag übereinstimmen, versuchen, alle englischen Zeichen an die Vorder- oder Rückseite hinzuzufügen und das resultierende Wort in einem Wörterbuch nachzuschlagen. Das ist am Anfang sehr teuer, aber wenn Sie diese Rechtschreibfehler in einer Nachschlagetabelle verfolgen, werden Sie irgendwann 99,99% der üblichen Rechtschreibfehler (oder wie immer Sie sie nennen) in Ihrer Nachschlagetabelle haben tatsächliche korrekte Schreibweise.

III) Trainiere ein 2-Gramm- oder 3-Gramm-Sprachmodell auf richtigem und sauberem Englisch (z. B. Zeitungsartikel), führe es dann über den gesamten Korpus, den du hast, und suche nach den Wörtern, die deine Sprache sind Modell betrachtet als unbekannte Wörter (was bedeutet, dass sie sie in der Trainingsphase nicht gesehen haben), was das höchste wahrscheinliche Wort gemäß dem Sprachmodell ist. Höchstwahrscheinlich wird die Sprachmodell-Top-10-Vorhersage das richtige buchstabierte Wort sein.

Verwandte Themen