2017-08-21 3 views
-3

Wie kann ich PDF in Python lesen? Ich kenne eine Möglichkeit, es in Text zu konvertieren, aber ich möchte den Inhalt direkt aus PDF lesen.Wie kann ich PDF in Python lesen?

Kann mir jemand erklären, welche Modul in Python am besten für pdf-Extraktion ist

Antwort

3

Sie Textract Modul in Python verwenden können

Textract

für die Installation

pip install textract 

für lese pdf

import textract 
text = textract.process('path/to/pdf/file', method='pdfminer') 

Für Detail Textract

4

können Sie PyPDF2 Paket verwenden

#install pyDF2 
pip install PyPDF2 

# importing all the required modules 
    import PyPDF2 

# creating an object 
    file = open('example.pdf', 'rb') 

# creating a pdf reader object 
    fileReader = PyPDF2.PdfFileReader(file) 

# print the number of pages in pdf file 
    print(fileReader.numPages) 

Folgen Sie dieser Dokumentation http://pythonhosted.org/PyPDF2/

+0

Die OP Frage zu PDF-Dateien, nicht –

+0

csv ja, ich meinen Code für csv geändert – shankarj67

Verwandte Themen