0

Ich arbeite an einem Texterkennungsprojekt. Ich habe einen Klassifikator mit TensorFlow erstellt, um Zahlen vorherzusagen, aber ich möchte einen komplexeren Algorithmus der Texterkennung implementieren, indem ich Textlokalisierung und Textsegmentierung (Trennung jedes Zeichens) benutze, aber ich habe keine Implementierung für diese Teile der Algorithmen gefunden .Texterkennung und -erkennung mit TensorFlow

Also, kennen Sie einige Algorithmen/Implementierung/Tipps I, mit TensorFlow, um Text zu lokalisieren und Textsegmentierung in natürlichen Szenen Bilder (tatsächlich Lokalisierung und Segmentierung von Text in der Anzeigetafel für Sportbilder) tun?

Vielen Dank für jede Hilfe.

+0

Dies ist eine __extremely__ breite Frage und eine Zopf Antwort wäre ja. – putonspectacles

+0

Ich persönlich spiele mit der Idee, Maus/Touchscreen Gestenerkennung Algorithmus für OCR zu spielen. Hast du etwas ähnliches gemacht? – Dalen

Antwort

1

Um Elemente auf einer Seite wie Absätze von Text und Bildern zu gruppieren, können Sie eine Clustering-Algo- und/oder Blob-Erkennung mit einigen Schwellenwerten verwenden.

Sie können die Radon-Transformation verwenden, um Linien zu erkennen und den Schräglauf einer gescannten Seite zu erkennen.

Ich denke, dass Sie für die Zeichentrennung müssen Sie sich mit Fonts befassen. Irgendein polynomisches Zusammenpassen/Anpassen oder etwas. (Dies ist eine sehr wilde Vermutung für den Moment, nimm es nicht ernst). Aber ähnliche Vorgehensweise würde es Ihnen ermöglichen, das Zeichen aus der Zeile zu entfernen und es in demselben Schritt zu erkennen.

Zur Erkennung, sobald Sie ein Zeichen haben, gibt es einen schönen trigonometrischen Trick, Winkel des Zeichens mit den Winkeln zu vergleichen, die in einer Datenbank gespeichert werden. Funktioniert auch gut auf Handschrift.

Ich bin kein Experte, wie Seitensegmentierung genau funktioniert, aber es scheint, dass ich auf dem Weg bin, eins zu werden. Arbeite gerade an einem Projekt, das es enthält. Also gib mir einen Monat und ich kann dir mehr erzählen. : D

Wie auch immer, Sie sollten Tesseract-Code lesen, um zu sehen, wie HP und Google es dort gemacht haben. Es sollte dir ziemlich gute Ideen geben.

Viel Glück!

+0

Danke! Warte auf deine Antwort in einem Monat :) –

+2

Ich habe nicht gesagt, dass du nichts tun solltest und warte nur darauf, dass ich in einem Monat blöde Seiten spalte. Ich weiß, es gibt ein bisschen mehr als nichts im Netz in Bezug auf vorbildlichen Code, aber es gibt einige gute Bücher über OCR da draußen und wie gesagt, Tesseract ist GPL. Ich hoffe, dass du am Ende mir helfen wirst, anstatt umgekehrt. Aber kein Problem. Ich werde früher oder später mit der Segmentierung von Seiten umgehen müssen. Lassen Sie sehen, wer zuerst das Problem lösen wird. – Dalen

+0

@Dalen haben Sie irgendwelche Ergebnisse von Ihrem Projekt erhalten? Ich arbeite an einem Projekt, bei dem auch Text erkannt und segmentiert wird. – SarahData