2017-10-24 3 views
0

Ich versuche, diese Liste von Bildern zu konvertieren, die ich zu Text haben. Die Bilder sind ziemlich klein, aber sehr lesbar (15x160, mit nur grauem Text und einem weißen Hintergrund) Ich kann nicht scheinen, pytseract zu bekommen, um das Bild richtig zu lesen. Ich versuchte, die Größe mit .resize() zu erhöhen, aber es schien nicht viel zu tun. Hier ist ein Teil meines Codes. Kann ich etwas Neues hinzufügen, um meine Chancen zu erhöhen? Wie ich schon sagte, ich bin sehr überrascht, dass der Ptyteract hier versagt, er ist klein, aber super lesbar im Vergleich zu einigen der Dinge, die ich zu haben scheint.So erhöhen Sie die Wahrscheinlichkeit der Bilderkennung mit Pytasseract

for dImg in range(0, len(imgList)): 
    url = imgList[dImg] 
    local = "img" + str(dImg) + ".jpg" 
    urllib.request.urlretrieve(url, local) 
    imgOpen = Image.open(local) 
    imgOpen.resize((500,500)) 
    imgToString = pytesseract.image_to_string(imgOpen) 
    newEmail.append(imgToString) 

Antwort

0

Die Einstellung der Seite Segmentierung Modus (PSM) kann wahrscheinlich helfen.

Um alle verfügbaren psm zu erhalten, geben Sie tesseract --help-psm in Ihr Terminal ein.

Dann identifizieren Sie die PSM entsprechend Ihrem Bedarf. Lassen Sie uns sagen Sie das Bild als eine einzelne Textzeile behandeln wollen, in diesem Fall Ihre ImgToString wird:

imgToString = pytesseract.image_to_string(imgOpen, config = '--psm 7') 

Hope this Ihnen helfen.