2016-04-28 18 views
1

Ich habe eine Reihe anderer stackoverflow Antworten gelesen und muss noch eine befriedigende Antwort zu diesem finden, aber es wurde zuvor gefragt. Wenn ich versuche, PyPDF2 zum Lesen von PDF-Dokumenten zu verwenden, fasst es alle Wörter in einem Satz zu einer fortlaufenden Zeichenfolge zusammen. Hat jemand Fortschritte dabei gemacht, herauszufinden, wie man das vermeiden kann? Unter dem Code untenPyPDF2 besteht darauf, alle Leerzeichen zu entfernen

import PyPDF2 
import pandas as pd 

import struct as struct 

from nltk import word_tokenize 

pdfFileObj = open("notes.pdf", 'rb') 

    pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

## reading pages fine 
print(type(pdfReader.numPages)) 

## read in the pages 
pageObj = pdfReader.getPage(0) 

print(pageObj.extractText()) 

ist eine Probe des Ausgangs

2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability 
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics. 
3)Datasummarization(graphicalandnumerical) 

4)Probabilityandrandomvariables 

Antwort

Verwandte Themen