Ich habe mehrere (1 Million +) Dokumente, E-Mail-Nachrichten, usw., die ich indizieren und durchsuchen muss. Jedes Dokument hat potenziell eine andere Kodierung.Normalisierung von Unicode-Daten für die Indizierung (für Multi-Byte-Sprachen): Welche Produkte machen das? Ist Lucene/Hadoop/Solr?
Welche Produkte (oder Konfiguration für die Produkte) muss ich lernen und verstehen, um dies richtig zu machen?
Meine erste Vermutung ist etwas Lucene-basierte, aber das ist etwas, was ich gerade lerne, wie ich gehe. Mein Hauptanliegen ist es, den zeitaufwändigen Kodierungsprozess so schnell wie möglich zu starten, so dass wir gleichzeitig das Such-Front-End erstellen können. Dies kann eine Art Normalisierung von Doppelbyte-Zeichen erfordern.
Jede Hilfe wird geschätzt.