2017-06-23 2 views

Antwort

0

Wenn alle Links mit http:// oder www. beginnen, können Sie einen regulären Ausdruck verwenden. Von diesem Post sagte, würde regulärer Ausdruck

\b(?:https?://|www\.)\S+\b werden, wenn Sie Python 3 verwenden, können Sie versuchen:

import re 

doc = '...' # use PythonDocx to put the text in here 
matches = re.search('\b(?:https?://|www\.)\S+\b',doc) 
if matches: 
    print(matches(0)) 

Quelle: Python-Dokumentation

Wenn dies richtig ist, wird dies die gesamten Text finden innerhalb doc, die mit http://, https:// oder www. beginnt und sie druckt.

Update: hoppla, falsche Lösung

Von der Python-docx Dokumentation, hier ist eine Arbeitslösung:

from docx import Document 

document = Document("foobar.docx") 
doc = '' # only use if you want the entire document 
for paragraph in document.paragraphs 
    text = paragraph.text 
    # with text, run your algorithms on it, paragraph by paragraph. if you want the whole thing: 
    doc += text 
# now run your algorithm on text 

Mein Python ist ein bisschen rostig, so dass ich vielleicht einen Fehler gemacht haben .

+0

Hey vielen Dank für die Antwort! aber wenn Sie meine Frage sorgfältig lesen, tatsächlich habe ich Probleme mit dem 'den Text hier einfügen' Teil. Ich kann später selbst einen Algorithmus entwerfen. ich würde mich freuen, wenn Sie mir dabei helfen können. –

Verwandte Themen