Ich brauche ein Skript, das eine Website spidern und die Liste aller gecrawlten Seiten im Klartext oder ähnlichem Format zurückgeben kann; was ich den Suchmaschinen als Sitemap übermitteln werde. Kann ich mit WGET eine Sitemap einer Website erstellen? Oder gibt es ein PHP-Skript, das das Gleiche tun kann?Kann ich WGET verwenden, um eine Sitemap einer Website mit ihrer URL zu erstellen?
7
A
Antwort
30
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "[email protected]\+ URL:\([^ ]\+\) .\[email protected]\[email protected]" wgetlog.txt | sed "[email protected]&@\&@" > sedlog.txt
Dies erzeugt eine Datei sedlog.txt
genannt, die alle Links auf der angegebenen Website enthält. Sie können PHP oder ein Shell-Skript verwenden, um die Textdatei-Sitemap in eine XML-Sitemap zu konvertieren. Verändern Sie die Parameter des wget-Befehls (accept/reject/include/exclude), um nur die benötigten Links zu erhalten.
1
können Sie diesen Perl-Skript verwenden, den Trick zu tun:
+0
Es wird durch Scannen des Dateisystems generiert, aber nicht "kriechen". Die Seiten, die ich spinnen möchte, sind dynamisch. –
Verwandte Themen
- 1. Kann ich Joomla!/WordPress verwenden, um meine Website zu erstellen?
- 2. Generieren einer Sitemap für eine geloggte Website
- 3. Was ist der beste Weg, um eine Sitemap zu erstellen?
- 4. Wie kann ich wget verwenden, um Dateien mit scrapy
- 5. Welche Python-Tools kann ich verwenden, um mit der API einer Website zu interagieren?
- 6. C# -Website erstellen, um Webservice zu verwenden
- 7. Visualisierung der SiteMap einer großen (Seitenzahl) Website
- 8. Erstellen einer XML-Sitemap mit PHP
- 9. So erstellen Sie eine Sitemap mit Sitecore
- 10. Welche Tools sollte ich verwenden, um meine Website zu erstellen?
- 11. Ich kann Sitemap nicht verwenden, wenn ich UrlMapping
- 12. Sitemap für mehrsprachige Website mit benutzerdefinierten Links
- 13. Wie kann ich Scripy schreiben, um Url Website zu sehen?
- 14. Kann ich robots.txt verwenden, um bestimmte URL-Parameter zu blockieren?
- 15. Wie starte ich Bootstrap, um eine Website zu erstellen?
- 16. Kann ich ASP.NET MVC-Routen aus einer XML-Sitemap generieren?
- 17. So erstellen Sie eine Sitemap mit DNN und C#
- 18. Wie kann ich die Blogpost-URL einer Jekyll-Website ändern?
- 19. Verwenden Sie Ihre eigene API, um Ihre Website zu erstellen
- 20. Wie kann ich smint verwenden, um oben auf meiner Website mit einer Seite zu blättern?
- 21. ASP.NET URL-Routing mit WebForms - Verwenden der SiteMap
- 22. So erstellen Sie eine Sitemap in expressjs
- 23. Welche Sprache/Werkzeug kann ich verwenden, um ein dynamisches 3D-Modell auf einer Website zu generieren?
- 24. Welche Form sollte ich verwenden, um eine Website
- 25. Wie kann ich PHP verwenden, um diese URL zu transformieren?
- 26. Welche Regex kann ich verwenden, um den Domain-Namen von einer URL in Ruby zu bekommen?
- 27. Nginx umschreiben, um eine "persönliche URL" zu erstellen
- 28. Sitemap für Domain mit mehrsprachiger Website
- 29. Wie kann ich eine URL von einer Website mit Java abrufen?
- 30. Kann ich MiniProfiler verwenden, um eine ASP.NET MVC WebApi-Website zu instrumentieren?
+1 Konnte es nicht so verwenden, da es mir eine Reihe von Fehlern gab (wahrscheinlich wegen verschiedener wget/sed-Versionen). Aber sobald ich ein paar Verbesserungen vorgenommen hatte, funktionierte es wie ein Zauber. Vielen Dank! – Julian
Sie sollten eine kleine Verzögerung zwischen Anfragen hinzufügen, indem Sie '--wait = 1' verwenden, da dies die Leistung der Site beeinträchtigen könnte. – Liam