Ich hatte einige Probleme beim Extrahieren des Textes aus einem Dokument mit PDFBox in Android. Aber der Parser scheint gut zu funktionieren (oder zumindest interpretiere ich das so); googeln "parsed = COSObject" liefert leider keine relevanten Ergebnisse (für einige Dokumente ist der Logcat gespammt und scheint es nicht zu geben schalte diesen Putput aus)). getCharactersByArticle gibt eine leere Ausgabe aus diesem Dokument zurück, d. vectorlistoft ist leer.PDFBox Parser scheint zu analysieren, aber leere Ausgabe von Text Stripper
ich hochgeladen haben, das Dokument zu: https://ufile.io/cnvoq
Für die meisten anderen Dokumente, die ich versucht habe, funktioniert die Textextraktion in Ordnung, oder bekomme ich Fehler in keinem Zusammenhang mit dieser. Aber nicht hier.
Hier ist das entsprechende Code-Snippet.
private void extractTextPosition() throws FileNotFoundException, IOException {
FileInputStream stream = new FileInputStream(var1);
PDFParser parser = new PDFParser(stream);
parser.parse();
Log.d("Parser has ","parsed");
StringWriter outString = new StringWriter();
CustomPDFTextStripper stripper = new CustomPDFTextStripper();
stripper.setStartPage(currentPage);
stripper.setEndPage(currentPage);
stripper.setSortByPosition(true);
try {
stripper.writeText(parser.getPDDocument(), outString);
} catch (Exception e) {
e.printStackTrace();
}
Vector<List<TextPosition>> vectorlistoftps = stripper.getCharactersByArticle();
}
CustomPDFTextStripper ist die gleiche wie PDFTextStripper (ich es geändert hatte, aber alle Änderungen kommentiert worden sind).
Jede Hilfe ist willkommen.
Vielen Dank. Ich habe nicht bemerkt, dass das Teilen des Originaldokuments, von dem es nur ein paar Seiten sind, den Text auf seinen Seiten in Bilder verwandelt hat. Ich mag solch unvorhersehbares Verhalten nicht. Ich brauche vielleicht einen besseren PDF-Splitter ... –
Das ist nicht das natürliche Ergebnis der Aufteilung von PDFs, es erfordert Arbeit, dies zu tun. Das scheint also ein besonderes "Feature" des verwendeten Splitters gewesen zu sein. In der Tat wollen einige Leute dieses Verhalten, weil sie nicht wollen, dass andere den Text ihrer pdfs leicht extrahieren können. – mkl