Ich verwende wget
, um eine HTML-Seite herunterzuladen und Informationen aus zu extrahieren. Speziell möchte ich dies drehen:Extrahieren Sie Informationen aus HTML-Dokumenten mit der Befehlszeile
<a href="/312728/" title="The 10 Best Goals ever">
<a href="/671921/" title="Golf at its best">
<a href="/371285/" title="Football Legends">
<a href="/576903/" title="Boxing Legends">
in diese und speichern Sie als eine TXT-Datei.
/312728/The 10 Best Goals ever
/671921/Golf at its best
/371285/Football Legends
/576903/Boxing Legends
Ich habe versucht:
wget --quiet -O - http://some-site.com | grep -o '<a href="/?/" title="?"> > new.txt
aber das hat mir nicht die gewünschten Ergebnisse.
'grep' oder einen regulären Ausdruck in der Regel nicht das richtige Werkzeug, um Informationen von Markup-Sprachen zu extrahieren . Es gibt Unmengen von Beispielen, wie man es im Internet richtig macht. Sie finden jedoch auch Tonnen von falschen Beispielen mit regulären Ausdrücken. Ich habe deine Frage ein wenig umformuliert. Ich hoffe, dass Sie sich ein wenig für andere Lösungen als "Grep" öffnen. – hek2mgl