2017-10-24 1 views
0

Ich versuche, Elemente aus einer Reihe von verschiedenen HTML-Dateien mit findall zu extrahieren und sie in eine neue HTML-Datei. Bisher habe ichPython: Lesen von lokalen HTML-Dateien, mit der Funktion findall, um Text in neue HTML-Datei zu extrahieren

news = ['16-10-2017.html', '17-10-2017.html', '18-10-2017.html', '19-10-2017.html', '21-10,2017.html', '22-10-2017.html'] 
def extracted(): 
    raw_news = open(news, 'r', encoding = 'UTF-8') 

im eine Funktion erstellen, die diese Dateien zu lesen in der Lage, bestimmte Teile zu extrahieren, so dass ich sie in eine neue HTML-Datei setzen können, aber ich bin nicht sicher, ob dieser Code für das Lesen der Dateien korrekt ist . Wie könnte ich Elemente aus diesen Dateien extrahieren?

Antwort

0

Sie müssen die Liste durchlaufen, eine Datei öffnen (python würde nach einer 'Zeichenfolge' fragen und sagen, dass sie stattdessen eine 'Liste' erhalten hat). Sobald Sie sich in der Schleife befinden, können Sie über die Datei navigieren und den gewünschten Text möglicherweise speichern und in eine andere Datenstruktur einfügen. Ändern Sie Ihr Arbeitsverzeichnis in das Verzeichnis, in dem Sie diese Dateien haben und dann:

def extracted(news): 
    for page in news: 
     raw_news = open(news[page], 'r', encoding = 'UTF-8') 
     # Now you have raw_news from one page and you can operate over it 
     # Once the loop is over, the same code would run on the next html file 
Verwandte Themen