2017-08-21 2 views
1

Ich versuche, Text aus einer PDF zu extrahieren Python, und ich habe erfolgreich so mit PyPDF2 wie dies getan:Wie extrahiert man Text aus einem bestimmten Bereich in einem PDF mit Python?

import PyPDF2 
pdfFileObj = open('path', 'rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 
pageObj = pdfReader.getPage(0) 
pageObj.extractText() 

Das extrahiert den gesamten Text aus der Seite, aber ich möchte nur den Text extrahieren aus einem rechteckigen Bereich von 3 'x4' im oberen linken Teil der Seite.

Ich mag im Grunde so etwas wie zu tun: How-to extract text from a pdf doc within a specific rectangular region? aber in Python

dies durch PyPDF2 oder durch eine andere Python-Bibliothek kann getan werden?

Antwort

0

Dies ist ein ziemlich komplexes Thema, aber es ist möglich. Zuerst müssen Sie sich mit der Beschreibung des PDF-Formats vertraut machen.

Starten Sie zum Beispiel here.

Sie können die Position und den Inhalt der Textfelder identifizieren und die Zeichenfolgedaten extrahieren.

This Thema enthält Beispiele für pyPdf, die vorherige Version von PyPDF2, aber die Syntax ist ähnlich. Es gibt Beispiele, wie die indirekten Objekte durchlaufen werden.

Ein guter Ausgangspunkt ist auch die Quelle der von Ihnen verwendeten Funktion pageObj.extractText(). Wenn Sie nicht auf Python beschränkt sind:

Verwandte Themen