Ich versuche ein Skript zu erstellen, das eine Webseite scrapt und alle gefundenen Bilddateien herunterlädt.So laden Sie Dateien von einer Webseite mit Python
Meine erste Funktion ist eine wget-Funktion, die die Webseite liest und einer Variablen zuweist. Meine zweite Funktion ist eine RegEx, die für die sucht ‚ssrc =‘ in einem Web-Seiten html, unten ist die Funktion:
def find_image(text):
'''Find .gif, .jpg and .bmp files'''
documents = re.findall(r'\ssrc="([^"]+)"', text)
count = len(documents)
print "[+] Total number of file's found: %s" % count
return '\n'.join([str(x) for x in documents])
Die Ausgabe von dieser ist so etwas wie dieses:
example.jpg
image.gif
http://www.webpage.com/example/file01.bmp
Ich bin versuchen, eine dritte Funktion zu schreiben, die diese Dateien mit urllib.urlretrieve (URL, Dateiname) herunterlädt, aber ich bin mir nicht sicher, wie das geht, vor allem, weil ein Teil der Ausgabe absolute Pfade ist, wo andere relativ sind. Ich bin auch unsicher, wie ich diese alle gleichzeitig herunterladen und herunterladen kann, ohne dass ich jedes Mal einen Namen und einen Ort angeben muss.
html nicht mit Regexen analysieren http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – n1c9