Ich versuche, ein Programm zu machen, das ein Verzeichnis öffnet, dann verwenden Sie reguläre Ausdrücke, um die Namen von Powerpoints zu erhalten und dann Dateien lokal zu erstellen und ihren Inhalt zu kopieren. Wenn ich das starte, scheint es zu funktionieren, aber wenn ich versuche, die Dateien zu öffnen, sagen sie immer, dass die Version falsch ist.Python urllib Download Inhalt eines Online-Verzeichnisses
from urllib.request import urlopen
import re
urlpath = urlopen('http://www.divms.uiowa.edu/~jni/courses/ProgrammignInCobol/presentation/')
string = urlpath.read().decode('utf-8')
pattern = re.compile('ch[0-9]*.ppt') #the pattern actually creates duplicates in the list
filelist = pattern.findall(string)
print(filelist)
for filename in filelist:
remotefile = urlopen('http://www.divms.uiowa.edu/~jni/courses/ProgrammignInCobol/presentation/' + filename)
localfile = open(filename,'wb')
localfile.write(remotefile.read())
localfile.close()
remotefile.close()
Sie sollten ** nie ** Parsing HTML mit RegEx finden http://stackoverflow.com/a/1732454/851737. Verwenden Sie eine HTML-Parsing-Bibliothek wie lxml oder BeautifulSoup. – schlamar
BeautifulSoup ist es. Vielen Dank für Ihre Empfehlung. – davelupt