Ich habe eine Zuordnung von Katalognummern zu Produktnamen:Wie Fuzzy-String-Suche ohne eine schwere Datenbank zu tun?
35 cozy comforter
35 warm blanket
67 pillow
und brauchen eine Suche, die falsch geschriebenen finden würde, gemischte Namen wie „warm cmfrter“.
Wir haben Code mit Edit-Abstand (Difflib), aber es wird wahrscheinlich nicht auf die 18000 Namen skalieren.
Ich habe etwas ähnliches mit Lucene erreicht, aber als PyLucene nur Wraps Java, die Bereitstellung für Endbenutzer komplizieren würde.
SQLite in der Regel nicht über Volltext oder Scoring in zusammengestellt.
Die Xapian bindings wie C++ und einig Lernkurve.
Whoosh ist noch nicht gut dokumentiert, enthält aber eine unzulässige Rechtschreibprüfung.
Was gibt es noch?
Warum sagen Sie difflib nicht skalieren? –
Vereinbarte S.Lott. Sagen bedeutet wahrscheinlich, dass es keine Messung gab, und Sie könnten voroptimieren ... –
Nur gemessen: zu langsam. – Tobias