Extrahieren von Text aus dem Bild in Java unter Verwendung tika Bibliothek

-1

Ich brauche Text aus dem Bild zu extrahieren, so dass ich einig OCR-BibliothekExtrahieren von Text aus dem Bild in Java unter Verwendung tika Bibliothek

gefunden

Tess4j

, die nicht so war, arbeitete ich an Apache Tika bewegen.

In Apacke Tika, habe ich mit ImageParser und JpegParser versucht. Es gibt Dateiinformationen, aber keinen Text in meiner Bilddatei.

Quelle

2016-04-16 Ajay Yadav

Haben Sie [die Apache Tika-Dokumentation zur OCR-Ausführung gelesen] (https://wiki.apache.org/tika/TikaOCR)? Wenn ja, wo bist du stecken geblieben? Wenn nicht warum nicht? Und was passiert, wenn du es tust? – Gagravarr

Ja, ich lese Tika Dokumentation. Und Code-Setup funktioniert gut, aber Jpeg-Parser gibt Text von einigen Bildern zurück, aber nicht von dem, den ich extrahieren muss. –

Für Bildverarbeitung Tessaract ist die beste API, die einige Methoden zusammen mit Java bietet, versuchen Sie es einmal. Sie können weitere Details finden here

Quelle

2016-04-16 10:11:43

Ich benutze Tessaract über Linux. Es ist in der Lage, Text aus dem Bild zu extrahieren, aber es fehlen einige Zeichen und anstelle von einigen Zeichen wird es als Sonderzeichen betrachtet. –

Verbesserung der Genauigkeit mit Whitelist von Zeichen wie beschrieben in http://pretius.com/using-tesseract-ocr-to-extract-scanned-invoice-data-in-java-application/ –

Sie können Tika auch über die Befehlszeile ausführen. Führen Sie es nur auf die Bilder, die Sie wollen auf OCR ausführen:

java -jar ./tika-app/target/tika-app-1.13-SNAPSHOT.jar -t ~/Desktop/tess.png

Tika verwendet Tesserakts intern OCR durchzuführen. Du solltest das also auf deinem PATH installiert haben.

Quelle

2016-04-25 19:38:00 cafed00d

Extrahieren von Text aus dem Bild in Java unter Verwendung tika Bibliothek

Antwort

Verwandte Themen