Ich versuche, Text aus einer PDF-Datei mit pdfbox
zu extrahieren. Ich kann jedoch nicht den gesamten Text aus einer Tabelle extrahieren. Siehe das Bild unten (von den pdf snipped)PdfBox - Text kann nicht aus der PDF-Datei extrahiert werden
ich in der Lage bin (einiger vertraulicher Text wurde hervorgehoben), um den Text aus dem ersten Tisch zu bekommen (in orange) und die 3. Tabelle (Allgemeine Information eins). Aber ich kann nichts aus der zweiten Tabelle extrahieren.
In der Ausgabe sehe ich nur ein paar Leerzeilen zwischen dem Ausgang der 1. und 3. Tabelle.
Hier ist mein Code.
PDDocument doc = PDDocument.load(new File("...."));
PDFTextStripper pdfStripper = new PDFTextStripper();
String text = pdfStripper.getText(doc);
System.out.println(text);
doc.close();
Irgendwelche Eingaben oder Vorschläge?
Sie sollten ein PDF zur Verfügung stellen, mit dem dies reproduzierbar ist. –
https://pdfbox.apache.org/2.0/faq.html#notext "Wieso bekomme ich keinen Text aus dem PDF-Dokument?" –
Können Sie diesen Text aus Adobe Reader kopieren und einfügen? – mkl