Ich versuche, PDF-Datei in solr zu indizieren, aber sieht aus wie während der Konvertierung von Text in UTF-8 Zeichen werden geändert.Suche/Index Problem mit nicht Englisch Sprache
Zum Beispiel hervorgehoben Im Folgenden Text:
Umgerechnet auf:
Suche trifft auf später Schlüsselwort nicht ursprüngliches Wort. Soweit ich weiß, geschieht dies beim Konvertieren von PDF-Text in UTF-8 vor der Indizierung.
als Referenz unten ist der Code für die Indizierung:
String solrUrlString = "http://localhost:8983/solr/example";
SolrClient solr = new HttpSolrClient(solrUrlString);
ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");
up.addFile(new File(filepage.getabsPath()), "application/pdf");
up.setParam("literal.id", filepage.getId());
up.setParam("uprefix", "attr_");
up.setParam("fmap.content", "attr_content");
up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
solr.request(up);