Ich habe ein Bild wie dieseTesseract OCR gibt falsch ausgerichteten Ausgangstext
SOME STUFF HERE
DEPARTMENT OF PATHOLOGY
Name : MR. V. HUGO Age/Sex : 31 Y(s)/Male
Bill Date : 28-Apr-2016 08:48 AM UMR No : ODC61995
Sample Date : 28-Apr-2016 09:38 AM Bill No : BIL130579
Report Date : 28-Apr-2016 04:21 PM Result No : RES378704
AND SOME MORE STUFF HERE
Das obige Bild in der Form rechteckig ist, wobei die Länge größer als die Breite ist. Ich schneiden Sie das obere Bild, um den Teil des Bildes, das wir lesen müssen und es sieht aus wie diese
Name : MR. V. HUGO Age/Sex : 31 Y(s)/Male
Bill Date : 28-Apr-2016 08:48 AM UMR No : ODC61995
Sample Date : 28-Apr-2016 09:38 AM Bill No : BIL130579
Report Date : 28-Apr-2016 04:21 PM Result No : RES378704
Im beschnittene Bild die Breite, die größer ist als die Länge. Aber die Ausgabe, die ich bekomme, ist fehlausgerichtet
Name
Bill Date
Sample Date
Report Date
MR. V. HUGO
28-Apr-2016 08:48 AM
28-Apr-2016 09:38 AM
28-Apr-2016 04:21 PM
Age/Sex
UMR No
Bill No
Result No
31 Y(s)/Male
ODC61995
BIL130579
RES378704
Kann jemand bitte erklären, warum dies geschieht? Ohne Beschneiden ist die Ausgabe richtig ausgerichtet, aber die Fehler sind mehr. Meine Idee ist, die Tesseract-OCR nur auf dem relevanten Teil des Bildes auszuführen. Ich bekomme das gleiche Ergebnis mit und ohne Python-Wrapper.
P.S. - Ich bekomme eine falsch ausgerichtete Ausgabe ähnlich wie oben, auch wenn ich Erosion/Erweiterung auf das Bild anwende, aber kein Zuschneiden, bevor ich es an Tesseract übergebe.