2016-07-26 15 views
0

Jemand kann mir helfen, mich wissen zu lassen, wie man die PDF-Datei liest, die einige Tabellen enthält. Ich möchte die Daten in der Tabelle extrahieren und zur csv-Datei ordnen.So lesen Sie die PDF-Datei in R

Vielen Dank

+2

Mögliche duplizieren http://stackoverflow.com/questions/3852354/extracting-text-data-from-pdf-files –

+1

+ Funktion erwähnt werden: http://www.inside-r.org/packages/cran/tm/docs/readPDF –

+0

Willkommen bei Stack Overflow! Bitte gehen Sie durch die [Tour] (http://stackoverflow.com/tour), die [Hilfe-Center] (http://stackoverflow.com/help) und die [wie Sie eine gute Frage stellen] (http: // stackoverflow.com/help/how-to-ask), um zu sehen, wie diese Site funktioniert und um Ihnen zu helfen, Ihre aktuellen und zukünftigen Fragen zu verbessern, die Ihnen helfen können, bessere Antworten zu erhalten. Der beste Weg ist eine Google oder SO Suche, bevor Sie hier fragen, und wenn Sie eine bestimmte Frage haben, wie Sie etwas versucht haben und es nicht funktioniert, dann wäre das eine geeignetere Frage für diese Art von Format. –

Antwort

2

Ein gut Schritt-für-Schritt beschrieben von der University of Virginia Sie Reading PDF files into R for text mining finden. Einige Informationen, die ich unten extrahiert habe.

Bitte folgen Sie den Installationshinweisen, die im obigen Link beschrieben sind.

Danach können Sie mit readPDF Ihre Funktion zum Lesen von PDF-Dateien erstellen. Sie können die Funktion benennen, was auch immer Sie mögen, z. B. Rpdf.

Die readPDF-Funktion hat ein Steuerelementargument, mit dem wir Optionen an unsere PDF-Extrahierungsengine übergeben. Dies muss in Form einer Liste sein, also verpacken wir unsere Optionen in die Listenfunktion. Es gibt zwei Steuerparameter für die xpdf-Engine: info und text. info übergibt Parameter an pdfinfo.exe und Text übergibt Parameter an pdftotext.exe. Wir übergeben nur eine Parametereinstellung an pdftotext: "-layout". Dadurch wird pdftptext.exe angewiesen, das ursprüngliche physische Layout des Texts so gut wie möglich zu verwalten.

Mit der Rpdf-Funktion können wir fortfahren, den Text der Meinungen zu lesen. Wir wollen die PDF-Dateien in Text umwandeln und in einem Korpus speichern, das im Grunde eine Datenbank für Text ist. Wir können mit dem folgenden Code alles, was tun:

opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))