Ich arbeite mit Tesseract, um Vokabellisten aus Bildern zu extrahieren.OCR Tesseract Konfiguration
Die Listen bestehen aus 2 verschiedenen Sprachen. Leider gibt es nur Leerzeichen zwischen lang1 und lang2 (vielleicht 3 oder 4 Leerzeichen).
Gibt es eine Möglichkeit zu definieren, welche Zeichenfolge zu nehmen ist, um die beiden voneinander zu trennen.
Die Liste wie folgt aussehen könnte:
Haus, Gebäude Haus, Gebäude Baum Baum ...
Auch ich Probleme habe einen Zeilenumbruch nach jedem Wort-Paar zu bekommen.
Danke!
Edit: ich diesen Befehl ausführen
tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu
zu extrahieren alle Einträge aus diesem Bild
Wie Sie sehen können, gibt es keine klare Trennlinie zwischen den Werten. Als Ausgang bekomme ich diese
was ist ruhig gut. Aber ich weiß nicht, wie man die Zeichenkette jeder Zeile in zwei Zeichenketten wegen des fehlenden verwendbaren Trennzeichens trennt.
Bitte teilen Sie, was Sie bisher versucht haben und welche Programmiersprache Sie verwenden. Auch das Teilen des Bildes könnte helfen. – hcham1
@ hcham1: Ich habe der Frage weitere Details hinzugefügt. – Brotzka