Ich ging durch alle vorhandenen Fragen Beiträge, konnte aber nicht viel relevantes bekommen.Lucene Fuzzy Suche nach Kundennamen und teilweise Adresse
Ich habe Datei mit Millionen von Datensätzen für Person Vorname, Nachname, Adresse1, Adresse2, Ländercode, Geburtsdatum - Ich möchte meine Liste der Kunden mit oben genannten Datei auf täglicher Basis (meine Kundenliste auch überprüfen täglich aktualisiert und Datei wird auch täglich aktualisiert).
Für Vornamen und Nachnamen möchte ich Fuzzy-Match (kann Lucene Fuzzyquery/Levenshtein Entfernung 90% übereinstimmen) und für die restlichen Felder Land und Geburtsdatum wollte ich genau übereinstimmen.
Ich bin neu in Lucene, aber durch die Anzahl der Beiträge sieht, wie es möglich ist.
Meine Fragen sind:
- Wie sollte ich Datei meinen Input Index? Ich muss Index auf Kombination von FN, LN, Land, DOB bauen und den Index für die Suche verwenden
- Wie kann ich Fuzzy-Abfrage von Lucene hier verwenden?
Gibt es noch eine andere Möglichkeit, das gleiche zu implementieren?
Dank Yuval, ja, ich habe eindeutige ID pro Person in der Datei also sollte ich gut sein. Kundenliste ist viel kleiner als die Personendatei. Ich werde versuchen, das zu lösen und zurückkommen. – Rushik