2016-04-16 5 views
-1

Ich brauche Text aus dem Bild zu extrahieren, so dass ich einig OCR-BibliothekExtrahieren von Text aus dem Bild in Java unter Verwendung tika Bibliothek

gefunden
  1. Tess4j

, die nicht so war, arbeitete ich an Apache Tika bewegen.

In Apacke Tika, habe ich mit ImageParser und JpegParser versucht. Es gibt Dateiinformationen, aber keinen Text in meiner Bilddatei.

+0

Haben Sie [die Apache Tika-Dokumentation zur OCR-Ausführung gelesen] (https://wiki.apache.org/tika/TikaOCR)? Wenn ja, wo bist du stecken geblieben? Wenn nicht warum nicht? Und was passiert, wenn du es tust? – Gagravarr

+0

Ja, ich lese Tika Dokumentation. Und Code-Setup funktioniert gut, aber Jpeg-Parser gibt Text von einigen Bildern zurück, aber nicht von dem, den ich extrahieren muss. –

Antwort

1

Für Bildverarbeitung Tessaract ist die beste API, die einige Methoden zusammen mit Java bietet, versuchen Sie es einmal. Sie können weitere Details finden here

+0

Ich benutze Tessaract über Linux. Es ist in der Lage, Text aus dem Bild zu extrahieren, aber es fehlen einige Zeichen und anstelle von einigen Zeichen wird es als Sonderzeichen betrachtet. –

+0

Verbesserung der Genauigkeit mit Whitelist von Zeichen wie beschrieben in http://pretius.com/using-tesseract-ocr-to-extract-scanned-invoice-data-in-java-application/ –

2

Sie können Tika auch über die Befehlszeile ausführen. Führen Sie es nur auf die Bilder, die Sie wollen auf OCR ausführen:

java -jar ./tika-app/target/tika-app-1.13-SNAPSHOT.jar -t ~/Desktop/tess.png 

Tika verwendet Tesserakts intern OCR durchzuführen. Du solltest das also auf deinem PATH installiert haben.