Wie kann ich URLs aus DOCX-Datei mit Python extrahieren?

-1

Pakete wie python docx ist in diesem Fall unwirksam, da es beim Erstellen und Aktualisieren von Docx-Dateien verwendet wird. Auch wenn ich den vollständigen Text bekomme, kann ich einen Algorithmus erstellen, um daraus Links zu extrahieren. brauche Hilfe!Wie kann ich URLs aus DOCX-Datei mit Python extrahieren?

Quelle

2017-06-23 Ravi Raj

Wenn alle Links mit http:// oder www. beginnen, können Sie einen regulären Ausdruck verwenden. Von diesem Post sagte, würde regulärer Ausdruck

\b(?:https?://|www\.)\S+\b werden, wenn Sie Python 3 verwenden, können Sie versuchen:

import re 

doc = '...' # use PythonDocx to put the text in here 
matches = re.search('\b(?:https?://|www\.)\S+\b',doc) 
if matches: 
    print(matches(0))

Quelle: Python-Dokumentation

Wenn dies richtig ist, wird dies die gesamten Text finden innerhalb doc, die mit http://, https:// oder www. beginnt und sie druckt.

Update: hoppla, falsche Lösung

Von der Python-docx Dokumentation, hier ist eine Arbeitslösung:

from docx import Document 

document = Document("foobar.docx") 
doc = '' # only use if you want the entire document 
for paragraph in document.paragraphs 
    text = paragraph.text 
    # with text, run your algorithms on it, paragraph by paragraph. if you want the whole thing: 
    doc += text 
# now run your algorithm on text

Mein Python ist ein bisschen rostig, so dass ich vielleicht einen Fehler gemacht haben .

Quelle

2017-06-23 15:30:41

Hey vielen Dank für die Antwort! aber wenn Sie meine Frage sorgfältig lesen, tatsächlich habe ich Probleme mit dem 'den Text hier einfügen' Teil. Ich kann später selbst einen Algorithmus entwerfen. ich würde mich freuen, wenn Sie mir dabei helfen können. –

Wie kann ich URLs aus DOCX-Datei mit Python extrahieren?

Antwort

Verwandte Themen