Ich versuche, neue Schriftarten zu tesseract ocr hinzuzufügen. Ich folge this tutorial, aber ich habe einige Probleme.Hinzufügen neuer Schriftarten zu Tesseract 3
Hier ist, was ich bisher getan habe:
erstellen
convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
Zug Tesseract Trainingsdokument
tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
Dies schuf mein eng.myfont .exp0.box Datei.
Ich öffne die Datei mit Moshpytt und stellen Sie sicher, dass es richtig erkannt wurde.
Tesseract Open Source OCR Engine v3.03 mit Leptonica
APPLY_BOXES:
Boxen lesendie Box-Datei
tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
Ich habe dieses Ergebnis wieder in tesseract-Feed von boxfile: 146
Gefunden 146 gute blobs.
TRAINING ... Font name = myfont.exp0
generiert Trainingsdaten für 6 Wörter- eng.myfont.exp0.box.tr Datei und eng.myfont.exp0.box.txt erzeugt
versuchen, den Zeichensatz in der Box-Datei verwendet zu erkennen (das ist, wo ich stecken)
unicharset_extractor *.box
Ergebnis:
unicharset_extractor: Befehl nicht gefunden
ich auch unicharset_extractor eng.myfont.exp0.box
mit dem gleichen Ergebnis tred.
Ich verwende:
- Tesserakts 3,03
- leptonica-1.70
- libgif 4.1.6 (?): Libjpeg 8d: libpng 1.2.50: libtiff 4.0.3: zlib 1.2. 8: webp 0.4.0
- Ubuntu 14.04.1 LTS
Das ist ziemlich eigenartig. Es bedeutet nur, dass der Befehl nicht gefunden werden kann. Auf meinem System kann ich diesen Befehl ohne Probleme in '/ usr/local/bin/unicharset_extractor' finden. – mlissner