Ich versuche, Abschnitte einer PDF-Datei zu extrahieren, um sie in der Textanalyse zu verwenden. Ich habe versucht, zu verwenden, um dies zu erreichen. Jedoch kann ein Befehl wieAbschnitte von PDF extrahieren
pdf-extract extract --regions --no-lines Bauer2010.pdf
nur extrahiert die (x,y)
Koordinaten einer Region, wie in dem Beispiel unten.
<region x="226.32" y="750.47" width="165.57" height="6.37"
line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and
Counseling 79 (2010) 315-319</region>
Können Abschnitte einer PDF extrahiert werden?
Sie sollten wahrscheinlich klarstellen, was Sie unter "Abschnitte eines PDFs" verstehen. – mkl