Eine Seite enthält Links zu einer Reihe von ZIP-Dateien, von denen ich alle herunterladen möchte. Ich weiß, dass dies mit wget und curl gemacht werden kann. Wie wird es gemacht?Wie lade ich alle Links zu .zip-Dateien auf einer bestimmten Webseite mit wget/curl herunter?
Antwort
Der Befehl lautet:
wget -r -np -l 1 -A zip http://example.com/download/
Bedeutung Optionen:
-r, --recursive specify recursive download.
-np, --no-parent don't ascend to the parent directory.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
-A, --accept=LIST comma-separated list of accepted extensions.
Above Lösung ist für mich nicht. Für mich nur diese funktioniert:
wget -r -l1 -H -t1 -nd -N -np -A.mp3 -erobots=off [url of website]
Optionen Bedeutung:
-r recursive
-l1 maximum recursion depth (1=use only this directory)
-H span hosts (visit other hosts in the recursion)
-t1 Number of retries
-nd Don't make new directories, put downloaded files in this one
-N turn on timestamping
-A.mp3 download only mp3s
-erobots=off execute "robots.off" as if it were a part of .wgetrc
Quelle: http://www.commandlinefu.com/commands/view/12498/download-all-music-files-off-of-a-website-using-wget –
ja, danke! Ich konnte mich nicht erinnern, woher es kam, es lag einfach in meinen Skripten. –
weiß nicht Entschuldigung. mach eine neue Frage! ;) –
Für andere Szenarien mit einigen parallel Magie I:
curl [url] | grep -i [filending] | sed -n 's/.*href="\([^"]*\).*/\1/p' | parallel -N5 wget -
- 1. Wie lade ich alle Dateien eines bestimmten Sourceforge-Projekts herunter?
- 2. Wie lade ich alle Dateien aus einem cvs-Repository herunter?
- 3. Wie lade ich die Google-Suchergebnisse herunter?
- 4. Wie scrolle ich eine Webseite herunter
- 5. Wie lade ich die Gson-Bibliothek herunter?
- 6. Wo lade ich Iesi.Collections herunter?
- 7. HTTrack: Wie lade ich Ordner nur aus einer bestimmten Unterordner-Ebene herunter?
- 8. Versuchen, alle Links einer Webseite mit scrapy zu crawlen. Aber ich kann die Links auf einer Seite nicht ausgeben
- 9. Wie lade ich eine Datei mit Node.js mit HTTPS herunter?
- 10. Wie lade ich einen Zweig mit Git herunter?
- 11. Wie lade ich eine Textdatei mit dem iPhone SDK herunter?
- 12. Wie lade ich Anaconda-Pakete herunter, ohne sie zu "installieren"?
- 13. Wie lade ich Quellcode mit Svn unter OS X herunter?
- 14. Wie lade ich eine Datei mit AFNetworking 2.0 herunter?
- 15. Wie lade ich ein Bild mit AFNetworking 2.0 herunter?
- 16. Wie lade ich eine Datei mit dem GWT-Client herunter?
- 17. Wie lade ich ein Bild mit Ruby herunter?
- 18. Wie lade ich eine Datei über HTTP mit Ruby herunter?
- 19. Ersetzen alle ausgehenden Links zu einer bestimmten Domäne in Wordpress
- 20. Wie lade ich eine Webseite herunter, für die Benutzername und Passwort erforderlich sind?
- 21. Wie lade ich eine ganze Sharepoint-Site herunter?
- 22. Wo lade ich sajdbc4.jar herunter?
- 23. Wie lade ich den Quellcode von Eclipse herunter?
- 24. Wie bekomme ich Links auf Flash-Objekte (auf meiner Webseite)
- 25. Wie lade ich eine URL in JavaScript (Nodejs) herunter?
- 26. Wie lade ich Dateien aus dem Internet mit dem Request-Modul herunter?
- 27. Wie lade ich eine Datei in Java herunter?
- 28. Java: Laden Sie eine Webseite mit einer URL von einem bestimmten Server herunter ip
- 29. Wie lade ich ein Bild von einer URL herunter und speichere es auf meinem Computer?
- 30. Wie lade ich die Webseite auf diese Weise?
Die '-nd' (keine Verzeichnisse) flag ist praktisch, wenn Sie keine zusätzlichen Verzeichnisse erstellen möchten (dh alle Dateien befinden sich im Stammordner). –
Wie optimiere ich diese Lösung, um tiefer von der gegebenen Seite zu gehen? Ich habe versucht -l 20, aber wget stoppt sofort. – Wrench