2017-12-27 3 views
0

Ich versuche, eine gescannte Seite in Text zu konvertieren, indem ich sowohl pytasseract als auch tesseract die Befehlszeile unter Ubuntu verwende. Die Ergebnisse sind merklich anders (der Text ist wesentlich besser als die Befehlszeile), und ich kann nicht verstehen, warum. Ich habe mir die Standardwerte für die Parameter angeschaut und versucht, einige der Parameterwerte in der Tesseract-Befehlszeile (wie psm) zu ändern, aber ich kann nicht das gleiche Ergebnis wie in pytasseract erhalten. Aufgrund fehlender Dokumentation in Pytasseract kann ich nicht herausfinden, welche Standardwerte für Parameter verwendet werden.Ergebnisse von pytasseract sind anders als tesseract Befehlszeilenergebnisse

Hier mein pytesseract Code ist print(pytesseract.image_to_string(Image.open('test.tiff'))

Antwort

0

Mit Blick auf den Quellcode pytesseract, so scheint es, das Bild immer in eine BMP-Datei umgewandelt wird. Arbeiten mit einer BMP-Datei und Psm von 6 an der Befehlszeile mit Tesseract gibt das gleiche Ergebnis wie Pytasseract. tesseract kann auch nur mit unkomprimierten bmp-Dateien arbeiten. Wenn ImageMagick zum Konvertieren von .pdf in .bmp verwendet wird, funktioniert daher Folgendes:

convert -density 300 -quality 100 mypdf.pdf BMP3:mypdf.bmp 
tesseract mypdf.bmp -psm 6 mypdf txt 
Verwandte Themen