Ich muss eine Rechtschreibprüfung artigen Betrieb in Python wie folgt durchführen:Schnellste Wörterbuch-like
ich eine große Liste von Wörtern haben (lass es das Lexikon nennen). Ich bekomme jetzt einen Text (nennen wir es das Sample). Ich muss nach jedem Beispielwort im Lexikon suchen. Wenn ich es nicht finden kann, ist dieses Beispielwort ein Fehler.
Kurz gesagt - eine Rechtschreibprüfung mit roher Gewalt. Das lineare Durchsuchen des Lexikons für jedes Abtastwort ist jedoch zwangsläufig langsam. Was ist eine bessere Methode, dies zu tun?
Der komplizierende Faktor ist, dass weder die Probe noch das Lexikon in Englisch ist. Es ist in einer Sprache, die statt 26 Zeichen mehr als 300 - in Unicode gespeichert haben kann.
Ein Vorschlag eines Algorithmus/Datenstruktur/Parallelisierungsmethode wird hilfreich sein. Algorithmen, die eine hohe Geschwindigkeit auf Kosten von weniger als 100% Genauigkeit aufweisen, wären perfekt, da ich keine 100% ige Genauigkeit benötige. Ich kenne Norvigs Algorithmus dafür, aber es scheint spezifisch für Englisch zu sein.
Vielleicht möchten Sie diesen Artikel lesen, wie man einen Rechtschreibkorrektor schreibt, vorausgesetzt, Ihr eventuelles Ziel ist es, falsch geschriebene Wörter zu finden, nicht nur richtig geschriebene: http://norvig.com/spell-correct.html –