2017-08-18 13 views
-1

Ich verwende ein Java-Programm, um Textdaten aus einem PDF zu extrahieren.Textdaten aus einem PDF extrahieren

Wenn ich diese Art von PDF verwenden habe ich kein Problem:

enter image description here

Aber wenn ich diese Art verwenden, die Extraktion nicht durchgeführt wird:

enter image description here

Haben Sie eine Ahnung um dieses Problem zu lösen?

+2

Beide Bilder sind genau gleich. Was möchtest du zeigen? – Aman

+1

Dies sind zwei identische Bilder. – notanormie

+1

i Sache keine Unterschrift ist ein Problem. PDF kann aus zwei Quellen stammen: ffrom Software, Build 'vector' Philosophie und Umschlag für Bitmaps von Scannern –

Antwort

1

Versuchen iText7 verwenden und folgenden Code:

File inputFile = new File("path_to_your_pdf"); 
PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile)); 
String text = PdfTextExtractor.getTextFromPage(pdfDocument.getPage(1)); 
pdfDocument.close(); 

Und lassen Sie uns wissen, was ist der Ausgang. Und ob die Ausgabe dem entspricht, was Sie erwarten würden.

Wie @mkl darauf hinweist, kann dies einfach der Unterschied zwischen Extrahieren von Formularfeldern sein oder nicht. In jedem Fall würden die Links zu Ihren PDFs sehr geschätzt. Sowie etwas Code.

Aber Sie können natürlich beide mit iText extrahieren.

Lesematerial: