Ich habe den HTML-Code einer Website in einer .txt
Datei auf meinem Computer gespeichert. Ich möchte alle URLs aus dieser Textdatei extrahieren, mit dem folgenden Code:Wie URLs korrekt aus HTML-Code extrahieren?
def get_net_target(page):
start_link=page.find("href=")
start_quote=page.find('"',start_link)
end_quote=page.find('"',start_quote+1)
url=page[start_quote+1:end_quote]
return url
my_file = open("test12.txt")
page = my_file.read()
print(get_net_target(page))
jedoch das Skript nur druckt die erste URL, aber nicht alle anderen Links. Warum ist das?
Vielen Dank für Ihre Antwort! Ich bin neu bei Python. Könnten Sie bitte ein Beispiel geben, wie Sie das umsetzen können? Das wäre sehr hilfreich. – jakeT888
Ich habe die Antwort mit einem Beispielcode aktualisiert, damit Sie den Algorithmus mit Ihrem eigenen Startcode besser verstehen. – SegFault