Ich möchte einen Web-Crawler schreiben, der JavaScript interpretieren kann. Grundsätzlich ist es ein Programm in Java oder PHP, das eine URL als Eingabe nimmt und den DOM-Baum ausgibt, der der Ausgabe im Firebug HTML-Fenster ähnlich ist. Das beste Beispiel ist Kayak.com, wo Sie nicht sehen können, dass das resultierende DOM im Browser angezeigt wird, wenn Sie "Quelle anzeigen", aber das resultierende HTML durch Firebug speichern können.Web-Crawler, der JavaScript interpretieren kann
Wie würde ich das machen? Welche Werkzeuge gibt es, die mir helfen könnten?
"erfassen" Sie könnten Webkit verwenden. – Seth
Kühl. Was ist deine Frage? –
Ich möchte einen Web-Crawler schreiben, der JavaScript-Code auf der Seite ausführen kann, die ich crawlen möchte. Zum Beispiel haben einige Seiten JavaScript-Code, um die Seite mit Daten von einem AJAX-Aufruf oder von einem JavaScript-Array zu füllen. Wenn Sie diese Seiten in FireFox öffnen und auf Ansicht -> Seitenquelle klicken, sehen Sie nicht das vollständige HTML-DOM, das Sie im Browserfenster sehen.Aber wenn Sie Firebug Plugin installiert haben, können Sie Firebug öffnen, klicken Sie auf HTML-Registerkarte, klicken Sie im Debug-Fenster auf und klicken Sie auf "HTML kopieren" und fügen Sie es in einen Texteditor, sehen Sie das HTML-DOM vom JavaScript-Code generiert . – user320662