Wie auf diesem SO Question diskutiert, funktioniert Tesseract oft besser mit .png-Dateien als mit .tiff-Dateien. (Ich habe das auch selbst erlebt). Leider sind weniger Box-Editoren verfügbar, die .png-Dateien verarbeiten können. Ich bin daher versucht, meine Daten mit TIFF-Dateien zu trainieren, aber dann. Png-Dateien für meine Haupt-OCR-Arbeit. Wird dies die Effektivität des Trainings reduzieren? Wenn ja, gibt es Möglichkeiten, das Problem zu lösen (außer einen Box-Editor zu finden, der .png-Dateien akzeptiert)?Tesseract - Zug mit einem anderen Bildformat als für die primäre OCR verwendet
0
A
Antwort
1
Einige Editoren wie jTessBoxEditor (Tesseract AddOns Seite) unterstützen sowohl TIFF als auch PNG Formate. Da TIFF ein mehrseitiges Bild sein kann, kann es viel mehr Samples für Ihren Zeichensatz haben als einseitiges PNG.
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
Verwandte Themen
- 1. chinesische Zeichenerkennung mit Tesseract OCR
- 2. Training Tesseract OCR für Mehrdeutigkeiten
- 3. Android OCR App Tesseract mit
- 4. Tesseract OCR Deutsche Sonderzeichen
- 5. OCR mit der Tesseract-Schnittstelle
- 6. Tesseract OCR Ausgabewert
- 7. Tesseract-OCR-Benutzermuster
- 8. Explizit die Schriftart für die Erkennung von Tesseract-OCR festgelegt
- 9. OCR (Tesseract), intelligente Rotation für Image
- 10. Tesseract OCR-Ergebnisse mit unscharfem Text verbessern
- 11. Verbessern Sie die Vorverarbeitungsschritte in Tesseract OCR für die Echtzeitaufnahme
- 12. Tesseract 3 (OCR) - .NET Wrapper
- 13. Tesseract ocr Leistung ist langsam
- 14. Spracherkennung mit Tesseract oder abby ocr
- 15. Wie Tesseract OCR mit Cordova/Phonegap app
- 16. iOS Tesseract OCR Image Preperation
- 17. Java OCR Programm mit tesseract in Windows
- 18. Tesseract oder jede andere OCR lib
- 19. Android Tesseract OCR 7 Segment Ziffern
- 20. Tesseract OCR funktioniert nicht in Web-Projekt
- 21. Welche Vorverarbeitungsoperationen werden von Tesseract OCR ausgeführt?
- 22. OCR - Preise erkennen mit iphone (openCV/Tesseract/Andere Methoden?)
- 23. NDK kompilieren Warnungen auf OCR Tesseract Bibliotheken für Android
- 24. Passing Bild mit OpenCV Bounding-Boxen zu Tesseract OCR
- 25. Wie lese ich Wörter aus Identitätskarten mit Tesseract OCR?
- 26. Texterkennung auf Seven-Segment-Anzeige über Tesseract OCR
- 27. Tesseract Beispiel für Iphone
- 28. UnicodeDecodeError 'Charmap' Codec mit Tesseract OCR in Python
- 29. MongoDB als primäre Datenbank?
- 30. tesseract-ocr arbeitet an EC2, nicht an Lambda
Interessant, danke! Weißt du, jTessBoxEditor ist, was ich benutzt habe. Ich hatte versucht, es mit einer 600-dpi-PNG-Datei (nur 212 KB) zu verwenden, und es würde es einfach nicht laden. Aber als ich herunterging, sogar nur auf 500 dpi, funktionierte es. Ich bin mir nicht sicher, was damit los ist. Aber ich hatte vorher nur gedacht, dass es unmöglich war, mit .png zu verwenden, basierend auf meiner Erfahrung mit der 600dpi-Datei. Aber nachdem du deine Antwort gelesen und es versucht hast, hat es funktioniert! Danke auch für all deine tolle Arbeit am Programm und deine weiteren super hilfreichen Antworten hier auf SO. –
Auch, damit ich die Kommentare nicht mit zu vielen getrennten Fragen auffülle, habe ich [this] (http://stackoverflow.com/questions/38018256/tesseract-advantage-to-multi-page-training-file) gepostet -vs-multiple-separate-files) neue Frage als Follow-up zu Ihrem Kommentar zu mehrseitigen '.tif' Bildern. Alle Einsichten, die Sie dazu haben, würden auch sehr geschätzt werden! Vielen Dank! –
Es sollten keine Grenzen gesetzt sein, es sei denn, es ist nicht genügend Speicher verfügbar. Versuchen Sie, das Programm mit einer größeren JVM-Heap-Größe auszuführen und das 600-dpi-Bild erneut zu laden. – nguyenq