2012-11-27 11 views
6

Ich versuche arabische PDFs in Apache Solr zu suchen. Das Problem scheint zu sein, dass Tika die PDF-Datei in umgekehrter Reihenfolge (von links nach rechts) anstelle von (von rechts nach links) indexiert.Solr für Arabisch PDF's

Ich habe gefunden, Referenzen zu diesem Problem hier:

Aber ich weiß nicht, wie die neueste Version von PDFBox aufzunehmen oder ICU4J in meinem Apache solr. Mein Ordner Apache Solr Contrib/extraction/lib enthält pdfbox-1.6.0.jar und icu4j-4.8.1.1.jar. Werden die genannten Dateien entfernt und durch die neuesten Bibliotheken aus den Projektseiten ersetzt, um TIKA dazu zu zwingen, sie zu verwenden?

Bitte erklären Sie, wie ich keine Erfahrung mit Java-Servlet habe. Vielen Dank!

Antwort

0

Von den Tags auf Ihrer Frage nehme ich an, dass Sie Drupal verwenden, um Apache Solr zu verbinden. Tika kann von Solr aus laufen, wenn Sie ihm Binärdokumente senden, oder Sie können es verwenden, bevor Sie die Dokumente an Solr senden. Das Drupal Solr Attachments-Modul hat eine Einstellung für das "Tika (lokale Java-Anwendung)". In dem zweiten Link, den Sie zur Verfügung gestellt haben, haben sie das Modul Solr Attachments gepatcht, um PDFBox anstelle von Tika zu verwenden, um die Binärdateien zu analysieren, bevor sie an Solr gesendet werden. Wenn Sie Drupal nicht verwenden, sollten Sie einen ähnlichen Ansatz versuchen.