2010-03-15 2 views

Antwort

0

Sie können Links aus HTML-Dateien mit Lynx Textbrowser extrahieren. Bash Scripting um dieses sollte nicht schwierig sein.

+0

analysieren Lynx kann es tun, aber es unterstützt es nicht wirklich. wget ist viel besser für den Zweck geeignet. – reinierpost

+0

Wie erhalten Sie wget, um eine Liste von Links auf einer Seite auszugeben? – Quentin

+0

Es ist eine wirklich coole Idee. Warum habe ich nicht früher daran gedacht? –

2

würde ich checklink (ein W3C-Projekt)

+0

Solange Sie den Benutzeragenten einstellen und Kopfzeilen akzeptieren (um falsche Fehlercodes von Bot-Detektoren zu vermeiden), sollte dies funktionieren. –

+0

Es würde gut aussehen, aber es ist definitiv nicht für so große Projekte gedacht - es gibt keine Möglichkeit, nur kaputte Links aufzulisten, und die Ausgabe für mein Projekt ist * wirklich * groß. –

0

Versuchen Sie, die webgrep Kommandozeilen-Tools oder, wenn Sie mit Perl, der HTML::TagReader Modul vom selben Autor bequem sind.

4

Sie wget verwenden können, zB

wget -r --spider -o output.log http://somedomain.com 

am unteren Rand der output.log Datei, wird es zeigen, ob wget defekte Links gefunden hat. Sie können das mit awk/grep

+0

Eine alternative ** wget ** -Befehlszeile zum Überprüfen auf defekte Links finden Sie in [dieser Antwort] (http://stackoverflow.com/a/15029100/1497596). Beachten Sie außerdem, dass ein Kommentar, den ich zu dieser Antwort hinterlassen habe, einen Link zu ** wget für Windows ** enthält. – DavidRR

Verwandte Themen