Ich versuche einen WebScraper zu erstellen, um Nachrichtenartikel zu sammeln, aber ich habe Probleme, den vollen HTML-Inhalt der Webseite zu erhalten. Here is the url, dass ich zunächst für Artikel Suchergebnisse kratzen muss:Wie bekomme ich den vollständigen Webseiten-HTML-Code in C#?
Dann kratze ich jeden einzelnen Artikel (example).
Ich habe versucht mit WebRequest, HTTPWebRequest und WebClient, um meine Anfragen zu machen, aber das Ergebnis, das jedes Mal nur den HTML-Inhalt für die Sidebar enthält, etc. Ich habe Chrome-Entwickler-Tools verwendet und das zurückgegebene HTML beginnt nur nach dem Hauptinhalt der Seite und ist daher nicht hilfreich. Ich habe auch nach Ajax-Aufrufen für den Inhalt gesucht und konnte keine finden.
Ich war erfolgreich in der Lage, den benötigten Inhalt mit Selenium Webdriver zu kratzen, aber das ist nicht ideal, da es viel langsamer ist, jede URL zu besuchen, und es wird oft beim Laden von Seiten aufgehängt. Jede Hilfe bei der Anforderung des vollständigen HTML-Inhalts der Seite wäre sehr willkommen.
Es würde helfen, wenn Sie den Code hinzufügen, den Sie ausführen – foobar
Wenn Sie nicht die HTML erhalten, die Sie mit Ihrer ersten Anfrage kratzen müssen, wird es wahrscheinlich mit JavaScript geladen. In diesem Fall müssen Sie diese Anforderungen replizieren, um das zu erhalten, was Sie benötigen. – ThePerplexedOne
Sie erhalten Roh-HTML für Artikel-Links. Von dem, was ich sehen kann, müssen Sie das Abfrageargument http://www.fa-mag.com/search.php?query=u&offset=0 senden, wenn der Abfrageparameter leer ist, gibt es nichts zurück. –