Ich möchte eine Python-Funktion, die eine PDF-Datei verwendet und eine Liste mit dem Text der Notiz-Annotationen im Dokument zurückgibt. Ich habe Python-Poppler (https://code.launchpad.net/~poppler-python/poppler-python/trunk) angeschaut, aber ich kann nicht herausfinden, wie ich es bekommen kann, um mir etwas nützliches zu geben.Parse-Annotationen aus einer PDF-Datei
Ich fand die get_annot_mapping
Methode und modifizierte das Demo-Programm zur Verfügung gestellt, um es über self.current_page.get_annot_mapping()
, aber ich habe keine Ahnung, was mit einem AnnotMapping-Objekt zu tun. Es scheint nicht vollständig implementiert zu sein und bietet nur die Kopiermethode.
Wenn es andere Bibliotheken gibt, die diese Funktion bereitstellen, ist das auch in Ordnung.
Während dies nützlich sein könnte, wenn ich den gesamten Text aus einer PDF extrahieren wollte, möchte ich nur die Anmerkungen extrahieren. Der Grund, warum ich Poppler erwähnt, ist, weil es diese Fähigkeit ziemlich leicht zur Verfügung stellt (http://cgit.freedesktop.org/poppler/poppler/tree/glib/poppler-annot.h). Aber ich wollte Python verwenden. Ich habe das Python-Poppler-Bindungsprojekt gefunden, scheint aber keinen vollständigen Zugriff auf die Annotationen zu bieten. Meine Frage läuft irgendwie auf "mache ich es falsch oder ist die Bibliothek unvollständig?" und "Gibt es noch andere, die dieselbe Funktionalität bieten?" – davidb