2016-10-30 13 views
0

Ich versuche Tesseract für eine neue Sprache auf Windows 7 mit den Binärdateien von UB-Manheim freundlicherweise zur Verfügung gestellt zu trainieren. Ich befolge das in the wiki beschriebene Trainingsverfahren. text2image funktioniert sehr gut und erzeugt die Dateien. Allerdings, wenn ich tesseract ... box.train laufen bekomme ich folgende Fehlermeldung:Tesseract Training unter Windows

read_params_file: Can't open box.train 

Sie die Binärdateien etwas fehlt? Ist es möglich, Tesseract auf Windows zu trainieren oder sollte ich zu Linux wechseln?

Antwort

1

Sie benötigen die configs Dateien unter tessdata\configs Ordner.

+0

Vielen Dank! Ich konnte nicht bekommen, dass "box.train" Argument der Pfad zur Konfigurationsdatei und nicht irgendeine "Option" war. Du hast mir so viel Zeit erspart! – gisly

0

Ich schlage vor, Sie Tesserakts auf Linux zu trainieren und lang.traineddata auf Windows- verwenden. trainierte ichTesseract 3.04 für persisch auf Linux durch folgende Batch-Datei (train.sh) und verwenden Sie diese far.traineddata auf Windows.

 for i in `ls -1 *.png`; do j=`echo $i| sed "s/\.png//"`;enter code heretesseract $i $j nobatch box.train; done 
     unicharset_extractor *.box 
     shapeclustering -F font_properties -U unicharset -O far.unicharset *.tr 
     mftraining -F font_properties -U unicharset -O far.unicharset *.tr 
     cntraining *.tr 
     mv normproto far.normproto; mv inttemp far.inttemp; mv pffmtable far.pffmtable; mv shapetable far.shapetable 
     combine_tessdata far.