2017-11-28 1 views
0

Ich arbeite an einem Projekt, um meinen sehbehinderten Freund zu helfen, ein Python-Skript wird zuerst einen Screenshot jede Sekunde machen und was auch immer auf dem Bild ist, wird in Text umgewandelt werden, und die Zeichen, das der Koordinate des Cursors am nächsten ist, wird die Ausgabe sein.OCR und koordinieren Zuordnung auf Bild für jedes Zeichen

Benutzer kann den Cursor irgendwo auf dem Bildschirm bewegen und das nächste Alphabet zum Cursor wird die Ausgabe des Programms sein.

Mach dir keine Sorgen über die Form der Ausgabe, es wird in Form Audio sein. Aber zur Vereinfachung der Frage nehmen wir an, es ist in Form eines einzelnen Zeichentextes.

In jedem Tutorial konnte ich erklären, wie man OCR-Abhängigkeiten verwendet, um den gesamten Text in eine fortlaufende Textdatei umzuwandeln.

Für meine spezielle Anwendung wird jedes Alphabet mit einer bestimmten Koordinate verknüpft. Aber ich konnte einfach keine einzige Ressource finden, um zu lernen, wie man den Ort des konvertierten Charakters auf dem Bild erkennt.

Bitte erleuchten Sie mich, wie Sie die Koordinaten eines Zeichens aus einem Bild extrahieren.

Antwort

0

Bitte erleuchten Sie mich, wie Sie die Koordinaten eines Zeichens aus einem Bild extrahieren.

Muss es eine lokale Lösung sein? Wenn nicht, dann könnte die Verwendung der kostenlosen OCR.space API eine gute Lösung sein. Er gibt die Koordinaten jedes OCR-Wortes zurück.

Andere Online-OCR-Engines, die Koordinaten zurückgeben, sind Google cloud vision und Azure. Sie haben eine kleine kostenlose Stufe zum Testen. Sie können compare their OCR results mit diesem Formular.

0

Dies ist ein gutes Projekt. Aber ich denke, es ist ein Huhn-und-Ei-Problem. Sie müssen OCR von einer fähigen OCR-Engine durchführen lassen (die meisten stellen keine Koordinaten bereit) und das Ergebnis wird den Text und die zugehörigen Koordinaten haben. Ihre Frage "Wie man die Koordinaten eines Zeichens aus einem Bild extrahiert" bedeutet OCR ausführen und Koordinaten erhalten. Wenn Sie zonale OCR, d. H. Nicht den gesamten Bildschirm, müssen Sie wissen, welche Zone OCR, und die Einrichtung dieser Zone, um sicherzustellen, dass sie alle notwendigen Text um Ihre Mausposition in dieser Zone enthält, ist wahrscheinlich die größte Herausforderung. Meine Firma unter www.wisetrend.com erstellt solche OCR-Spezialprojekte pro Fall. Wir helfen Ihnen gerne bei diesem nichtkommerziellen Projekt, wenn Sie gemeinsam arbeiten möchten.

Verwandte Themen