2016-04-20 9 views
1

Ich habe begonnen, Pytesser zu verwenden, der sowohl mit Englisch als auch mit Chinesisch gut funktioniert, aber gibt es eine Möglichkeit, beide Sprachen gleichzeitig arbeiten zu lassen? Müsste ich meine eigene Trainingsdatei erstellen? Mein Code ist:Verwenden mehrerer Sprachen in Pyteser

import Image 
from pytesser import * 
print image_to_string(Image.open("chinese_and_english.jpg"), lang="eng") 
#also want to have chinese be recognized 

chinese_and_english

Antwort

2

Ich bin nicht sicher über Pytesser aber tesserocr können mehrere Sprachen angeben. Zum Beispiel:

import tesserocr 

with tesserocr.PyTessBaseAPI(lang='eng+chi_tra') as api: 
    api.SetImageFile('eSXSz.jpg') 
    print api.GetUTF8Text() 

# or simply 
print tesserocr.file_to_text('eSXSz.jpg', lang='eng+chi_tra') 

Beispielausgabe für Ihr Bild:

In [8]: print tesserocr.file_to_text('eSXSz.jpg', lang='eng+chi_tra') 
Character, Chmese 動m川爬d 
胸肌岫馴伽 H枷﹏ P﹏… … 

〔Manda‥﹝ 二 Standard C…爬虯 



一 

口 

X慣ng怕ng 

Beachten Sie, dass es effizienter ist die API einmal wie im ersten Beispiel und wiederverwenden es für mehrere Bilder durch den Aufruf SetImageFile initialisiert werden (oder SetImage mit einem PIL.Image Objekt), um zu vermeiden, die API jedes Mal neu zu initialisieren.