2017-06-26 1 views
0

Ich arbeite gerade an einem Projekt, bei dem ich eine digitale Signatur (.JPG-Datei) in eine PDF-Datei unter der Zeichenfolge 'Kommentare' einfügen muss.Das beste Tool zum Suchen von Textorten aus .PDF oder .DOCX in Python 3.4

Ich möchte in der Lage sein, die Koordinaten oder den Ort irgendwie der Zeichenfolge zu finden, "Kommentare" und dann legen Sie diese Signature.jpg vorzugsweise mehrere Koordinaten darunter.

Ursprünglich ist die Datei ein (.doc) und nicht ein (.pdf). Wäre es einfacher, den Ort der Zeichenkette zu finden, "Kommentare" zuerst auf der (.doc) und dann in eine (.PDF) umzuwandeln? Und wenn ja, wie könnte ich die Position von 'Comments' in der (.doc) Datei in Python finden?

Dank

Antwort

0

Dies ist eine ziemlich harte fragen. Was Sie fragen, ist nicht nur eine Textsuche - dieser Teil wäre relativ einfach. Aber um den Seitenort zu finden, müssten Sie von der Zeichenfolge zu einem Container zurück arbeiten, der möglicherweise hierarchisch verschachtelt ist - wie eine Menge verschachtelter HTML-Elemente - und die Position berechnen und dann Ihre sig-Datei an einem bestimmten Ort bequem hinzufügen darunter.

Es wäre viel einfacher zu diktieren, wo die Unterschrift hingelegt wird - vielleicht haben Ihre Schreibwaren einen Ort für die Unterschrift am Rand, wo Sie die Koordinaten kennen.

Wie für die Doc-Option - ich denke, es ist das gleiche Problem, aber ein anderes verrücktes Dateiformat.

+0

Thing ist, jedes der Dokumente haben die Zeile für die Unterschrift an einer anderen Stelle auf der Seite. Wie gesagt, es steht immer unter dem Wort "Kommentare". Ich würde wirklich gerne einen Weg finden. Es ist auch immer das letzte Ding auf der Seite, also vielleicht, wenn es eine Möglichkeit gäbe, den Abstand vom unteren Rand bis zum letzten Wort auf dem Dokument zu finden? –

+0

Ich bekomme komplett, was Sie wollen und die Probleme bei der Erreichung. Ehrlich gesagt ist es keine triviale Angelegenheit, es auf irgendeine nützliche und robuste Weise direkt zu machen. Ich würde mir Python-PDF-Bibliotheken anschauen und sehen, welche Möglichkeiten sie bieten. Vielleicht hat jemand bereits die 4 Dinge, die Sie brauchen, zur Verfügung gestellt: 1) Suche nach String, 2) geben Sie den Ort, 3) Bild einfügen "unter" Ort, 4) Datei speichern. –

+1

Ich habe etwas gefunden, mit dem ich den Index eines Strings in der docx-Datei finden kann. Aber ich bin mir nicht sicher, wie ich das auf eine bestimmte Position umsetzen soll. –

Verwandte Themen