Konfigurieren von Tesseract mit solr 6.4.1

So konfigurieren Sie Tika OCR mit solr 6.4.1. Ich indizierte Dokumente wie PDF, Bilder und MS-Office-Dokumente, aber ein Problem trat auf Tika extrahierte keinen Text aus Bildern und auch nicht aus Bildern, die in PDF- und MS-Office-Dokumenten enthalten sind. Dafür habe ich Tika OCR recherchiert. zu diesem Zweck installiere ich Tika-App-1.7.jar und Tesseract, aber ich weiß nicht, wie ich sie mit meinem Solr-Core konfiguriere.Konfigurieren von Tesseract mit solr 6.4.1

Quelle

2017-03-25 Waleed Raza

Sie müssen nichts Besonderes tun. Holen Sie sich einfach das Tesseract OCR Setup für Ihre Distribution und install es auf dem System. Stellen Sie sicher, dass Ihre PATH-Variable einen Eintrag für das Tesseract-Ausgangsverzeichnis hat und die TESSDATA_PREFIX-Variable festgelegt ist und auch auf das Tesseract-Ausgangsverzeichnis zeigt. Starten Sie Solr neu und Sie können loslegen. Sie sollten die OCR-Komponente sehen können, wenn Sie Dokumente über den Handler /update/extract an den Index senden.

Standardmäßig wird Tesseract nur mit dem englischen Modell ausgeliefert. Holen Sie sich Modelle für andere Sprachen von here.

Quelle

2017-03-26 06:42:22

ja Es funktioniert !!!! –

Aber es bekommt keinen arabischen Text. –

Wie kann ich diese extrahieren? –

Konfigurieren von Tesseract mit solr 6.4.1

Antwort

Verwandte Themen