Textdaten aus einem PDF extrahieren

-1

Ich verwende ein Java-Programm, um Textdaten aus einem PDF zu extrahieren.Textdaten aus einem PDF extrahieren

Wenn ich diese Art von PDF verwenden habe ich kein Problem:

Aber wenn ich diese Art verwenden, die Extraktion nicht durchgeführt wird:

Haben Sie eine Ahnung um dieses Problem zu lösen?

Quelle

2017-08-18 ELMO

Beide Bilder sind genau gleich. Was möchtest du zeigen? – Aman

Dies sind zwei identische Bilder. – notanormie

i Sache keine Unterschrift ist ein Problem. PDF kann aus zwei Quellen stammen: ffrom Software, Build 'vector' Philosophie und Umschlag für Bitmaps von Scannern –

Versuchen iText7 verwenden und folgenden Code:

File inputFile = new File("path_to_your_pdf"); 
PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile)); 
String text = PdfTextExtractor.getTextFromPage(pdfDocument.getPage(1)); 
pdfDocument.close();

Und lassen Sie uns wissen, was ist der Ausgang. Und ob die Ausgabe dem entspricht, was Sie erwarten würden.

Wie @mkl darauf hinweist, kann dies einfach der Unterschied zwischen Extrahieren von Formularfeldern sein oder nicht. In jedem Fall würden die Links zu Ihren PDFs sehr geschätzt. Sowie etwas Code.

Aber Sie können natürlich beide mit iText extrahieren.

Lesematerial:

Quelle

2017-08-23 14:49:00

Textdaten aus einem PDF extrahieren

Antwort

Verwandte Themen