2016-10-11 10 views
0

Ich arbeite mit Tesseract, um Vokabellisten aus Bildern zu extrahieren.OCR Tesseract Konfiguration

Die Listen bestehen aus 2 verschiedenen Sprachen. Leider gibt es nur Leerzeichen zwischen lang1 und lang2 (vielleicht 3 oder 4 Leerzeichen).

Gibt es eine Möglichkeit zu definieren, welche Zeichenfolge zu nehmen ist, um die beiden voneinander zu trennen.

Die Liste wie folgt aussehen könnte:

Haus, Gebäude Haus, Gebäude Baum Baum ...

Auch ich Probleme habe einen Zeilenumbruch nach jedem Wort-Paar zu bekommen.

Danke!

Edit: ich diesen Befehl ausführen

tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu 

zu extrahieren alle Einträge aus diesem Bild

Swedish - German wordlist

Wie Sie sehen können, gibt es keine klare Trennlinie zwischen den Werten. Als Ausgang bekomme ich diese

was ist ruhig gut. Aber ich weiß nicht, wie man die Zeichenkette jeder Zeile in zwei Zeichenketten wegen des fehlenden verwendbaren Trennzeichens trennt.

+0

Bitte teilen Sie, was Sie bisher versucht haben und welche Programmiersprache Sie verwenden. Auch das Teilen des Bildes könnte helfen. – hcham1

+0

@ hcham1: Ich habe der Frage weitere Details hinzugefügt. – Brotzka

Antwort

0

Sie könnten die Tesseract-API verwenden und versuchen, die Wörter zu trennen, indem Sie die Methode WordFontAttributes der Klasse ResultIterator aufrufen, um festzustellen, ob ein Wort fett ist oder nicht. This GitHub gist zeigt, wie die Methode verwendet wird.