OCR Tesseract Konfiguration

Ich arbeite mit Tesseract, um Vokabellisten aus Bildern zu extrahieren.OCR Tesseract Konfiguration

Die Listen bestehen aus 2 verschiedenen Sprachen. Leider gibt es nur Leerzeichen zwischen lang1 und lang2 (vielleicht 3 oder 4 Leerzeichen).

Gibt es eine Möglichkeit zu definieren, welche Zeichenfolge zu nehmen ist, um die beiden voneinander zu trennen.

Die Liste wie folgt aussehen könnte:

Haus, Gebäude Haus, Gebäude Baum Baum ...

Auch ich Probleme habe einen Zeilenumbruch nach jedem Wort-Paar zu bekommen.

Danke!

Edit: ich diesen Befehl ausführen

tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu

zu extrahieren alle Einträge aus diesem Bild

Wie Sie sehen können, gibt es keine klare Trennlinie zwischen den Werten. Als Ausgang bekomme ich diese

was ist ruhig gut. Aber ich weiß nicht, wie man die Zeichenkette jeder Zeile in zwei Zeichenketten wegen des fehlenden verwendbaren Trennzeichens trennt.

Quelle

2016-10-11 Brotzka

Bitte teilen Sie, was Sie bisher versucht haben und welche Programmiersprache Sie verwenden. Auch das Teilen des Bildes könnte helfen. – hcham1

@ hcham1: Ich habe der Frage weitere Details hinzugefügt. – Brotzka

Sie könnten die Tesseract-API verwenden und versuchen, die Wörter zu trennen, indem Sie die Methode WordFontAttributes der Klasse ResultIterator aufrufen, um festzustellen, ob ein Wort fett ist oder nicht. This GitHub gist zeigt, wie die Methode verwendet wird.

Quelle

2016-10-21 12:02:18 cortex42

OCR Tesseract Konfiguration

Antwort

Verwandte Themen