Wie kann ich ein Word-Dokument mit Python suchen, um den Absatztext nach der Suche und dem Abgleich der Absatzüberschrift zu extrahieren, z. B. "1.2 Zusammenfassung des Broadspectrum Angebots".Extrahieren von Absatztext in Python
zB siehe unten für ein Dokumentationsbeispiel, ich möchte grundsätzlich den folgenden Text erhalten "Eine Zusammenfassung unseres Angebotes zur Lieferung des Leistungsumfangs wie in den Ausschreibungsunterlagen beschrieben ist unten aufgeführt. Bitte beachten Sie die verschiedenen Bedingungen Bedingungen unseres Angebots, wie hierin beschrieben. Bitte beachten Sie auch die Kostenaufschlüsselung finden "
1. Executive Summary
1.1 Summary of Services
Energy Savings (Carbon Emissions and Intensity Reduction)
Upgrade Economy Cycle on Level 2,5,6,7 & 8, replace Chilled Water Valves on Level 6 & 8 and install lighting controls on L5 & 6..
1.2 Summary of Broadspectrum Offer
A summary of our Offer to deliver the Scope of Work as outlined in the tender documents is provided below. Please refer to the various terms and conditions of our Offer as detailed herein.
Please also find the cost breakdown
beachten Sie, dass die Überschriften Nummer Änderung von doc doc und wollen nicht auf diese verlassen können, um so mehr will ich verlassen auf den Suchtext in der Überschrift
bis jetzt kann ich die Dokumente aber nur einen Anfang suchen.
filename1 = "North Sydney TE SP30062590-1 HVAC - Project Offer - Rev1.docx"
from docx import Document
document = Document(filename1)
for paragraph in document.paragraphs:
if 'Summary' in paragraph.text:
print paragraph.text
Wird Ihr Dokument jemals etwas nach dem '1.2 Zusammenfassung ...' Absatz haben? Und wird 'Summary of Broadspectrum Offer' immer mit' 1.2' gekennzeichnet? – sadmicrowave
Sie sollten die Re-Bibliothek verwenden, um Regex-Ausdrücke zu schreiben. Es gibt umfangreiche Informationen über SO und das Internet. –
Vielleicht kann dies helfen: https://stackoverflow.com/questions/40388763/extraction-headings-text-from-word-doc –