2017-12-28 19 views
-1

Ich bin auf der Suche nach automatisierten Dateneingabe von vordefinierten Formen, die von Hand ausgefüllt wurden. Die Zeichen sind nicht getrennt, aber die Felder können durch darunter liegende Zeilen oder als Teil einer Tabelle identifiziert werden. Ich weiß, dass handschriftliche OCR immer noch ein Bereich der aktiven Forschung ist, und ich kann eine Operatorüberprüfungsfunktion einschließen, also erwarte ich keine Genauigkeit über 90%.Dateneingabe Automatisierung durch Feldidentifikation und optische Zeichenerkennung (OCR) für Handschrift auf vordefinierten Formularen

Die erste Lösung, an die ich gedacht habe, ist eine Kombination aus OpenCV zur Feldidentifikation (http://answers.opencv.org/question/63847/how-to-extract-tables-from-an-image/) und Tesseract zum Erkennen der Handschrift (https://github.com/openpaperwork/pyocr).

Eine andere möglicherweise einfachere und wirksamere Methode zur Feldidentifikation mit einer vordefinierten Form wäre es, das leere Formular von der ausgefüllten Form zu subtrahieren. Da die Formulare gescannt würden, würde dies wahrscheinlich eine gewisse Positionstoleranz, Rauschreduzierung und Merkmalerkennung erfordern.

Alle Vorschläge oder Kommentare würden sehr geschätzt werden.

+1

können Sie einen Blick auf https://StackOverflow.com/Questions/33452222/detect-table-with-opencv/46806306#46806306 werfen, um eine allgemeine Annäherung zu bekommen – flamelite

Antwort

1

Wie in Tesseract FAQ gesagt, ist es nicht zu empfehlen, wenn Sie nach einer erfolgreichen handschriftlichen Erkennung suchen. Ich würde Ihnen empfehlen, mehr in kommerzielle Projekte wie Microsoft OCR API zu schauen (Scrollen Sie nach unten, um handgeschriebenen Text von Bildern zu lesen), Sie können es online ausprobieren und ihre API in Ihrer Anwendung verwenden.

Eine weitere Option ABBYY OCR ist, die viele nützliche Funktionen Tabellen zu erkennen, komplizierte Dokumente usw. können Sie mehr lesen here

Wie für freie Alternativen - die denken nur, dass in den Sinn kommt Lipi toolkit

ist

Für die Erkennung von Buchstaben - es hängt wirklich von der Eingabe ab, im Allgemeinen, wenn Ihre Form jedes Mal mehr oder weniger gleich ist - wäre es am besten, einfach Ihr Formular zu messen und vordefinierte Positionen zu verwenden, in denen Sie nach Text suchen müssen. Ansonsten ist OpenCV eine richtige Technologie, um nach Text zu suchen, es gibt viele Tutorials online und gute Antworten hier auf stackoverflow, zum Beispiel können Sie einen Blick auf detection using MSER Antwort von Silencer werfen.

+0

Lassen Sie uns [diese Diskussion im Chat fortsetzen] (http: //chat.stackoverflow.com/rooms/162175/discussion-between-flamelite-and-dmitri-i-z). – flamelite

Verwandte Themen