So konfigurieren Sie Tika OCR mit solr 6.4.1. Ich indizierte Dokumente wie PDF, Bilder und MS-Office-Dokumente, aber ein Problem trat auf Tika extrahierte keinen Text aus Bildern und auch nicht aus Bildern, die in PDF- und MS-Office-Dokumenten enthalten sind. Dafür habe ich Tika OCR recherchiert. zu diesem Zweck installiere ich Tika-App-1.7.jar und Tesseract, aber ich weiß nicht, wie ich sie mit meinem Solr-Core konfiguriere.Konfigurieren von Tesseract mit solr 6.4.1
0
A
Antwort
1
Sie müssen nichts Besonderes tun. Holen Sie sich einfach das Tesseract OCR Setup für Ihre Distribution und install es auf dem System. Stellen Sie sicher, dass Ihre PATH
-Variable einen Eintrag für das Tesseract-Ausgangsverzeichnis hat und die TESSDATA_PREFIX
-Variable festgelegt ist und auch auf das Tesseract-Ausgangsverzeichnis zeigt. Starten Sie Solr neu und Sie können loslegen. Sie sollten die OCR-Komponente sehen können, wenn Sie Dokumente über den Handler /update/extract
an den Index senden.
Standardmäßig wird Tesseract nur mit dem englischen Modell ausgeliefert. Holen Sie sich Modelle für andere Sprachen von here.
Verwandte Themen
- 1. Solr 6.4.1 Update sehr lang
- 2. Crawling einer URL in solr 6.4.1
- 3. Konfigurieren von AEM 6.0 mit SOLR
- 4. Apache Solr 6.4.1 Qtime ist viel mehr als Qtime der gleichen Abfrage in Solr 3.6.1
- 5. konfigurieren Feldanalyse-Handler - Solr 4
- 6. So konfigurieren Sie Apache Tika mit Apache Solr 1.4.1
- 7. Konfigurieren von DataImportHandler in SolrCloud mit ZooKeeper
- 8. SOLR 6.4.1 Suggester ist hartnäckig Groß-und Kleinschreibung, wie man Groß-und Kleinschreibung beachten?
- 9. Können wir externe Solr-Server mit DAS konfigurieren
- 10. So konfigurieren Sie die Solr-Konfiguration mit DSE
- 11. Wie ein Verzeichnis und seine Dateien und Unterverzeichnisse mit Anlegestelle wie in solr geliefert werden?
- 12. Vertrauenswürdigkeit von Tesseract OCR
- 13. Tesseract: Angeben von Textbereichen
- 14. Von Tesseract verwendete Filtertypen
- 15. Fehler mit Tesseract js
- 16. Tesseract-Sprachcodes mit Ländername
- 17. Tesseract: Wie tesseract mit mehreren Sprachen einmal ausgeführt wird
- 18. Konfigurieren von Solr zum Zurückweisen von Index-/Aktualisierungsanfragen mit späterem Zeitstempel (im Dokument)
- 19. Android OCR App Tesseract mit
- 20. Verwendung von Tesseract aus Java
- 21. Fundament 6.4.1 - Raster funktioniert nicht mehr?
- 22. Wie sollte ich meine Solr filterCache, FirstSearcher und NewSearcher konfigurieren?
- 23. Tesseract Themenmenü
- 24. OCR mit der Tesseract-Schnittstelle
- 25. chinesische Zeichenerkennung mit Tesseract OCR
- 26. Training Tesseract-OCR mit JTessBoxEditor
- 27. Tesseract ios mit trainierten Daten
- 28. Wie behebt man das js-Exportproblem mit Fundamentschienen? 6.4.1
- 29. Verwenden von Solr mit MySQL
- 30. Löschen von Solr-Dokumenten aus Solr Admin
ja Es funktioniert !!!! –
Aber es bekommt keinen arabischen Text. –
Wie kann ich diese extrahieren? –