2016-09-29 3 views
0

Ich benutze Python 2.7 und pyPDF, um die Titel-Meta-Informationen aus PDF-Dateien zu erhalten. Leider haben nicht alle PDFs die Metainformationen. Was ich jetzt machen möchte, ist die ersten beiden Textzeilen aus einem PDF zu holen. Mit was ich jetzt habe, wie kann ich den Code ändern, um die ersten zwei Zeilen mit PyPDF zu erfassen?Extrahiere die ersten beiden PDF-Zeilen mit Python und pyPDF

from pyPdf import PdfFileWriter, PdfFileReader 
import os 

for fileName in os.listdir('.'): 
    try: 
     if fileName.lower()[-3:] != "pdf": continue 
     input1 = PdfFileReader(file(fileName, "rb")) 

     # print the title of document1.pdf 
     print fileName, input1.getDocumentInfo().title 
    except: 
     print ",", 

Antwort

1
from PyPDF2 import PdfFileWriter, PdfFileReader 
import os 
import StringIO 

fileName = "HMM.pdf" 
try: 
     if fileName.lower()[-3:] == "pdf": 
      input1 = PdfFileReader(file(fileName, "rb")) 

      # print the title of document1.pdf 
      #print fileName, input1.getDocumentInfo().title 

      content = input1.getPage(0).extractText() 
      buf = StringIO.StringIO(content) 
      buf.readline() 
      buf.readline() 

except: 
     print ",", 

My PWD enthält diese "HMM.pdf" Datei und dieser Code arbeitet an Python richtig 2.7.

+0

können Sie mir ein vollständiges Beispiel basierend auf meinem aktuellen Code zeigen ... es wird nichts ausgegeben, wenn ich den oben angegebenen Code hinzufüge. – acctman

+0

hat den Code bearbeitet. –

+0

hmm bin ich etwas fehlt noch keine Ausgabe. habe 5 pdf-Dateien in einem Ordner Ich führe das Skript und nichts – acctman

Verwandte Themen