Wir haben eine C# .Net App, die Tesseract verwendet, um optische Zeichenerkennung (OCR) auf .tiff-Dateien durchzuführen. Hier ein Beispiel: Tesseract OCR Horizontal gelesen statt vertikal C#
Wir geben dann die Daten in eine Textdatei aus. Tesseract liest die Daten jedoch vertikal. In meinem Beispiel Bild wird das Lesen der tiff als zwei Spalten von Daten, und die Daten werden die Daten von Tesseract wie folgt ausgegeben werden:
TYP: DATUM: Adresse: Stadt: Zustand: Besitzer: Eigentümer Typ: Acreage: Hypothek: 2017-04-06 100 Haupt St. Einige Stadt Einige staatliche John Doe Primary 10,25 Ja
Was wir wollen, ist Tesseract die TIFF-Datei horizontal zu lesen und die Ausgabe aussehen wie dieses:
TYPE: 12345 DATUM: 2017.04.06 Adresse: 100 Haupt St. Stadt: Einige Stadt Zustand: Einige staatliche Besitzer: John Doe Eigentümer Typ: Primäre Acreage: 10,25 Hypothek: Ja
Wir haben die verschiedenen Seite Sementation Optionen für Tesseract versucht, aber sie alle das gleiche Ergebnis.
Hat jemand in das gleiche Problem gerannt? Hat jemand Ideen?