2016-07-29 12 views
0

Ich versuche, Abschnitte einer PDF-Datei zu extrahieren, um sie in der Textanalyse zu verwenden. Ich habe versucht, zu verwenden, um dies zu erreichen. Jedoch kann ein Befehl wieAbschnitte von PDF extrahieren

pdf-extract extract --regions --no-lines Bauer2010.pdf 

nur extrahiert die (x,y) Koordinaten einer Region, wie in dem Beispiel unten.

<region x="226.32" y="750.47" width="165.57" height="6.37" 
line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and 
Counseling 79 (2010) 315-319</region> 

Können Abschnitte einer PDF extrahiert werden?

+2

Sie sollten wahrscheinlich klarstellen, was Sie unter "Abschnitte eines PDFs" verstehen. – mkl

Antwort

0

Werfen Sie einen Blick auf http://text-analyzer.com, wo Sie Ihre PDF-Datei hochladen können und es in ein Format umwandelt, das für Natural Language Processing geeignet ist. Sobald es in eine Textdatei konvertiert wurde, kann es die Datei verarbeiten und in Sätze mit Stimmungsanalyse zerlegen. Es hat über 40 verschiedene Arten von Satzansichten, in denen Sie Abschnitte markieren können. Diese markierten Sätze können exportiert werden.