Ich arbeite an einem Projekt, um meinen sehbehinderten Freund zu helfen, ein Python-Skript wird zuerst einen Screenshot jede Sekunde machen und was auch immer auf dem Bild ist, wird in Text umgewandelt werden, und die Zeichen, das der Koordinate des Cursors am nächsten ist, wird die Ausgabe sein.OCR und koordinieren Zuordnung auf Bild für jedes Zeichen
Benutzer kann den Cursor irgendwo auf dem Bildschirm bewegen und das nächste Alphabet zum Cursor wird die Ausgabe des Programms sein.
Mach dir keine Sorgen über die Form der Ausgabe, es wird in Form Audio sein. Aber zur Vereinfachung der Frage nehmen wir an, es ist in Form eines einzelnen Zeichentextes.
In jedem Tutorial konnte ich erklären, wie man OCR-Abhängigkeiten verwendet, um den gesamten Text in eine fortlaufende Textdatei umzuwandeln.
Für meine spezielle Anwendung wird jedes Alphabet mit einer bestimmten Koordinate verknüpft. Aber ich konnte einfach keine einzige Ressource finden, um zu lernen, wie man den Ort des konvertierten Charakters auf dem Bild erkennt.
Bitte erleuchten Sie mich, wie Sie die Koordinaten eines Zeichens aus einem Bild extrahieren.