Pakete wie python docx ist in diesem Fall unwirksam, da es beim Erstellen und Aktualisieren von Docx-Dateien verwendet wird. Auch wenn ich den vollständigen Text bekomme, kann ich einen Algorithmus erstellen, um daraus Links zu extrahieren. brauche Hilfe!Wie kann ich URLs aus DOCX-Datei mit Python extrahieren?
-1
A
Antwort
0
Wenn alle Links mit http://
oder www.
beginnen, können Sie einen regulären Ausdruck verwenden. Von diesem Post sagte, würde regulärer Ausdruck
\b(?:https?://|www\.)\S+\b
werden, wenn Sie Python 3 verwenden, können Sie versuchen:
import re
doc = '...' # use PythonDocx to put the text in here
matches = re.search('\b(?:https?://|www\.)\S+\b',doc)
if matches:
print(matches(0))
Quelle: Python-Dokumentation
Wenn dies richtig ist, wird dies die gesamten Text finden innerhalb doc
, die mit http://
, https://
oder www.
beginnt und sie druckt.
Update: hoppla, falsche Lösung
Von der Python-docx Dokumentation, hier ist eine Arbeitslösung:
from docx import Document
document = Document("foobar.docx")
doc = '' # only use if you want the entire document
for paragraph in document.paragraphs
text = paragraph.text
# with text, run your algorithms on it, paragraph by paragraph. if you want the whole thing:
doc += text
# now run your algorithm on text
Mein Python ist ein bisschen rostig, so dass ich vielleicht einen Fehler gemacht haben .
Verwandte Themen
- 1. Extrahieren Sie URLs aus String mit JavaScript
- 2. URLs aus einem String extrahieren mit PHP
- 3. Wie URLs korrekt aus HTML-Code extrahieren?
- 4. Kann ich Schemainformationen aus leeren Access-Tabellen mit Python extrahieren?
- 5. Wie URLs von einer HTML-Seite in Python zu extrahieren
- 6. Wie extrahieren URLs mit einem Muster übereinstimmen
- 7. So extrahieren Sie URLs aus dem Text
- 8. Regex zu extrahieren alle URLs aus string
- 9. Python: Text aus String extrahieren
- 10. Wie kann ich URLs aus Textdatei eins nach dem anderen
- 11. Wie kann ich Frames aus Videos extrahieren (mit DirectShow)?
- 12. Wie kann ich Abkürzungen aus einer Datei mit Perl extrahieren?
- 13. Werte aus einer Zeichenfolge mit Python extrahieren
- 14. Python: Wie URL aus HTML-Seite mit BeautifulSoup extrahieren?
- 15. Python extrahieren Teilstring aus String
- 16. wie Python-Datenrahmen aus JSON-String extrahieren
- 17. Wie ich Tisch mit JSOUP extrahieren kann
- 18. So extrahieren Bild URLs mit Jsoup
- 19. Wie kann ich lokale Variablen aus einem Stack-Trace extrahieren?
- 20. Extrahieren von Daten aus HTML mit Python
- 21. Extrahieren von Städtenamen aus Text mit Python
- 22. Extrahieren von Zeilen aus Textdateien mit Python
- 23. Wie kann ich viele URLs asynchron aus einer Liste aufrufen
- 24. Wie kann ich zwei Spalten aus einer TXT-Datei mit Python extrahieren?
- 25. Wie kann ich mit der Python-HTMLParser-Bibliothek Daten aus einem bestimmten div-Tag extrahieren?
- 26. Wie kann ich Daten aus einem bestimmten HTML-Link mit html.parser in Python extrahieren?
- 27. Python, wie Inhalte aus HTML-Datei extrahieren
- 28. JavaDoc mit Python extrahieren
- 29. Wie kann ich permanent zugängliche URLs aus Datenbankeinträgen erstellen?
- 30. Android Volley | Extrahieren Sie Json aus mehreren URLs
Hey vielen Dank für die Antwort! aber wenn Sie meine Frage sorgfältig lesen, tatsächlich habe ich Probleme mit dem 'den Text hier einfügen' Teil. Ich kann später selbst einen Algorithmus entwerfen. ich würde mich freuen, wenn Sie mir dabei helfen können. –