Ich plane eine App wie Word Lens zu entwickeln. Kann jemand eine gute Bibliothek vorschlagen, die ich benutzen kann? oder irgendeine Technologie hinter der Word Lens App erklären? ist es die Bildanpassung der Rollenzeit oder OCR? Ich kenne einige Bildverarbeitungs-Bibliothek wie OpenCV, Tesseract ... Jede Hilfe wird sehr geschätzt ...Real Time Image Processing (OCR)
15
A
Antwort
42
Ich bin einer der Schöpfer von Word Lens. Obwohl es dort einige OCR-Bibliotheken gibt (wie Tesseract), haben wir uns entschieden, unsere eigenen zu erstellen, um bessere Ergebnisse und Leistungen zu erzielen. Unsere allgemeinen Algorithmus geht so:
- Kopie des Bildes von der Kamera und erhalten ihre Graustufenkomponente
- nivellieren das Bild, so der Text heraus hebt sich deutlich vor dem Hintergrund
- Draw-Boxen um Dinge, die aussehen Zeichen & Sätze
- OCR: passen Sie die Pixel in jeder Box gegen eine Datenbank von Zeichen - das ist eigentlich ziemlich hart!
- sammeln die Zeichen in Worte zu fassen, in einem Wörterbuch nachschlagen (diese zu hart ist, da wird es Fehler in der OCR sein)
- die Ergebnisse auf das Bild
Bild ziehen zurück von selbst nicht gut genug, wegen der großen Vielfalt an Schriftarten, Wörtern und Sprachen.
OpenCV ist eine großartige Bibliothek, um mit der Computer Vision im Allgemeinen zu beginnen und zu lernen. Ich würde empfehlen, ihre Beispiele aufzubauen und dort herumzuspielen. Habe Spaß!
Verwandte Themen
- 1. GMT Time to Real Time
- 2. Twilio Real Time Recording
- 3. Swift Image Processing
- 4. .NET Real Time Data Chart
- 5. C# Real Time Try Catch
- 6. iOS Tesseract OCR Image Preperation
- 7. Real-Time-Markt/Aktienkurse in C#/Java
- 8. "Real Time" Datenänderungserkennung in SQL Server
- 9. Makefile Fehler in Matlab Real-Time Workshop
- 10. Scala und Java Real-Time System
- 11. PHP Real Time Chat mit Ratchet Websockets
- 12. Real-Time Slack-Klon mit AngularFire
- 13. Real-Time-Linting von C-Code
- 14. IBM IoT Real-Time Insights Virtueller Datenpunkt?
- 15. Android Real Time Multiplayer - Zimmererstellung schlägt fehl
- 16. Alternativen zu Matlabs Image Processing Toolkit
- 17. OCR (Tesseract), intelligente Rotation für Image
- 18. Warum ist sys + user> real in "time command"?
- 19. Versuch, Real Time Plot Sensordaten von einem Arduino
- 20. SQL Compact SQL Express Real-Time Merging/Syncing
- 21. Get Real Time - Nicht Device Set Zeit in android
- 22. Android Permission Real Time Suche während der Installation
- 23. Ich möchte das Real Time Reporting API-Anforderungslimit erhöhen.
- 24. Tesseract OCR Deutsche Sonderzeichen
- 25. Bildverarbeitung/Superlicht OCR
- 26. FFTW Real-to-Real-Transformation schreitet Array
- 27. PHP: time> time()
- 28. [Processing/Java] Sichtbarkeit/Layering Problem
- 29. Tesseract OCR Ausgabewert
- 30. Audio Processing - Tone Recognition
Würdest du bessere Ergebnisse erzielen, wenn du 4 und 5 kombinierst? Als ein Außenseiter für OCR scheint es mir, dass Sie Informationen durch "5" verloren haben, die in schwierigen Fällen nützlich sein könnten. –
martin: ganz richtig; zB ist ein 'O' sehr ähnlich wie eine '0', oder sogar eine '8' und ein 'B', also hilft es, Listen von Möglichkeiten zu behalten und sie dann in den folgenden Stufen zu reduzieren, wenn mehr disambiguierende Information verfügbar ist (eine einfache Art von Feedback) –
@jd. Vielen Dank für Ihren Kommentar. Darf ich wissen, wie lange es dauerte, bis Sie Word Lens erstellt haben? Würden Sie bitte gute Tutorials für OCR vorschlagen? –