2016-12-27 3 views
1

Ich möchte OCR auf Png und PDF-Dateien durchführen. Ich bin in der Lage Tesseract 3.0.2 .net Wrapper Arbeit für Png-Dateien zu bekommen, aber ich kann keine Klasse für PDF-Dateien darin finden.So, funktioniert es für die pdf-Dateien. Wenn nicht, bitte lassen Sie mich wissen, eine andere Open-Source-Bibliothek für das Scannen von PDFs. Meine Anforderung ist das Scannen von Diagrammen in einer PDF für bestimmte Kreise und das Erstellen von Hyperlinks für diese Kreise.Ist OCR für .net funktioniert mit PDF-Dateien?

+0

Sie können diese PDF-Dateien in ein Bild konvertieren und dann Tesseract verwenden. Es gibt einige kommerzielle Bibliotheken wie Nuance, die mit PDF-Dateien umgehen können. aber der Preis ist ziemlich hoch. –

+0

Sie können die pdfs mit ghostscript kostenlos in PNGs umwandeln. Ich werde in ein paar Stunden an meinem Schreibtisch sein, damit ich meine Implementierung teilen kann. Ich habe es von einem anderen SO-Post gefunden. –

+0

Haben Sie PDFBox für das PDF-Parsing ausprobiert? kostenlose PDFBox? – Kiquenet

Antwort

1

Nein, tut es nicht. Sie müssen zuerst die Bilder aus der PDF-Datei extrahieren. Dies kann unter Verwendung von pdfimagespdfimages.exe -j your.pdf oder gs, wie von Zakk Diaz vorgeschlagen, erfolgen.