2010-11-20 6 views
1

Ist es möglich, eine bestimmte Schriftart von der unten angegebenen Bild zu generieren?Generate Schrift von einem Bild des Textes

Meine Idee ist es, eine bestimmte Schriftart für das unten gegebene Bild von Text zu erzeugen, durch manuell Teil des Bildes auswählen und es auf einen Satz von letter's.Generate der Schriftart für diesen Kartierungs- und dann diese verwenden Schriftart, um es lesbar für eine OCR.Is Generation von Schriftart möglich mit jeder Open-Source-Implementierung machen? Empfehlen Sie bitte auch gute OCRs.

alt text

+0

@ downvoter: bitte erläutern. – Emil

+0

Ich würde denken, dass diese Unterlängen auf dem y und g die meisten OCR-Programme verwechseln würden. –

+0

@jcomeau_ictx: Haben Sie eine gute OCR verwendet? – Emil

Antwort

1

Abbyy Finereader 10 wird besser als erwartete Ergebnisse bekommt aber vorhersagbar verwirrt, wenn die Zeichen berühren.

Ihr Problem ist, dass der Zeilenabstand zu klein ist. Die Unterlängen jeder Zeile überlappen die Zeichenbegrenzungsfelder der Zeichen in der Zeile direkt darunter. Dies macht eine Zeichensegmentierung nahezu unmöglich, da sich die Zeichen berühren und überlappen. Die Anzahl der Kombinationen überlappender Zeichen ist praktisch unmöglich zu trainieren. Die Buchstaben "g" und "y" sind die schlimmsten Täter.

Eine Version mit doppelter Zeilenabstand würde wahrscheinlich OCR relativ gut.

Eine benutzerdefinierte Lösung, die jede Zeile mit einem guten Wörterbuch segmentierte und trennte, würde definitiv die Ergebnisse verbessern. Es würde dennoch einige Fehler geben, die manuell korrigiert werden müssen. Die benutzerdefinierte Routine müsste sich mit den Ober- und Unterlängen befassen und versuchen, das Bild in Zeilen zu segmentieren, die dann einer anständigen OCR-Engine zugeführt werden können. Eine Möglichkeit wäre, jeden Zeichenblob auf der Seite zu analysieren und einer Zeile zuzuordnen. Leptonica (www.leptonica.com - C Imaging Library) würde diese Arbeit wahrscheinlich etwas erleichtern.

Ich würde dies nicht versuchen, ohne zuerst die Auflösung auf 200 oder 300 dpi zu erhöhen.

Mit dieser benutzerdefinierten Lösung wird das Training einer Schriftart zu einer Option, wenn die OCR-Engine anfänglich einen schlechten Job macht.

Abbyy (www.abbyy.com) oder Google Tesseract OCR 3.00 wäre ein guter Anfang.

Keine Garantie, ob das alles funktioniert. Dies ist eine recht schwierige Seite für OCR und Sie müssen herausfinden, ob es besser ist, sie manuell nach Übersee zu tippen. Es hängt von der Anzahl der Seiten ab, die verarbeitet werden müssen.

Verwandte Themen