2017-06-12 9 views
-2

scrape so das ist etwas, was ich für Forschungszwecke tun.Wie kann ich alle Dokumente auf einer Webseite mit wget

Ich versuche, von diesem Link alle Dateien zu kratzen

https://services.crtc.gc.ca/pub/ListeInterventionList/Default-Defaut.aspx?en=2015-134&dt=i&lang=e&S=C&PA=t&PT=nc&PST=a

wget die Zeichen in dieser URL als externe Befehle wie dt = erkennt. Alle Dateien verstecken sich hinter Links. Welchen Befehl kann ich mit wget verwenden, um alle Dateien in einen Ordner zu scrappen?

Antwort

0

Um wget rekursiv herunterzuladen, gibt es eine -r Option. Dies kann ziemlich viel Zeit in Anspruch nehmen. Wenn Sie also wissen, dass die Links, die Ihnen wichtig sind, nur eine Ebene tiefer liegen, können Sie -l 1 oder eine andere Ganzzahl verwenden, wenn Sie eine bestimmte Tiefe erreichen möchten.

Nicht verwandt mit wget per-se, aber ich vermute, dass Sie auch nicht die Zeichen der URL entkommen und Ihre Shell interpretiert sie. Sie müssen allen Sonderzeichen mit \ (Schrägstrich) vorangestellt werden. Also, wenn Ihr URL lautet:

http://www.somewhere.com/file.php?p1=v1&p2=v2 

Auf den meisten Granaten würden Sie den Befehl eingeben müssen, wie folgt:

wget -r -l 1 http://www.somewhere.com/file.php\?p1=v1\&p2=v2 

Die genauen Zeichen, die abhängig von der Schale müssen entkommen, aber das ist, was ich verwenden mit tcsh.

Verwandte Themen