2017-03-25 4 views
0

So konfigurieren Sie Tika OCR mit solr 6.4.1. Ich indizierte Dokumente wie PDF, Bilder und MS-Office-Dokumente, aber ein Problem trat auf Tika extrahierte keinen Text aus Bildern und auch nicht aus Bildern, die in PDF- und MS-Office-Dokumenten enthalten sind. Dafür habe ich Tika OCR recherchiert. zu diesem Zweck installiere ich Tika-App-1.7.jar und Tesseract, aber ich weiß nicht, wie ich sie mit meinem Solr-Core konfiguriere.Konfigurieren von Tesseract mit solr 6.4.1

Antwort

1

Sie müssen nichts Besonderes tun. Holen Sie sich einfach das Tesseract OCR Setup für Ihre Distribution und install es auf dem System. Stellen Sie sicher, dass Ihre PATH-Variable einen Eintrag für das Tesseract-Ausgangsverzeichnis hat und die TESSDATA_PREFIX-Variable festgelegt ist und auch auf das Tesseract-Ausgangsverzeichnis zeigt. Starten Sie Solr neu und Sie können loslegen. Sie sollten die OCR-Komponente sehen können, wenn Sie Dokumente über den Handler /update/extract an den Index senden.

Standardmäßig wird Tesseract nur mit dem englischen Modell ausgeliefert. Holen Sie sich Modelle für andere Sprachen von here.

+0

ja Es funktioniert !!!! –

+0

Aber es bekommt keinen arabischen Text. –

+0

Wie kann ich diese extrahieren? –

Verwandte Themen