Ich brauche einen Ratschlag für ein Projekt, das ich beginne.Beratung benötigt: Screen Scraping einer Webseite mit. NET
In wenigen Worten, meine Bewerbung muss zu einer bestimmten Fußball-Website gehen, laden Sie die HTML-und extrahieren Sie die notwendigen Daten.
Dies ist, was ich bisher getan haben.
:: 1) Gehen Sie zu einem bestimmten Fußball Website (ex http://www.livescore.com/default.dll?page=england) und laden Sie die HTML-WebClient.
:: 2) Mit SgmlReader die HTML zu XML konvertieren
:: 3) XmlDocument Mit Abrufen der Daten die ich suche. Normalerweise ist dies beinhaltet:
::::::: 3.1) Abrufen von Knoten mit GetElementsByTagName)
::::::: 3,2)() (ex GetElementsByTagName ("tr".) Die Liste der von der GetElementsByTagName() -Methode zurückgegebenen Knoten durchlaufen
Gibt es einen besseren Weg, um das zu tun, was ich versuche?
Ich dachte an LINQ zu XML. Glauben Sie, dass dies die Leistung verbessert?
Alle Vorschläge oder Kommentare würden sehr geschätzt werden!
Ich denke, ich werde das HtmlAgilityPack verwenden, aber alles, was ich fand, war 3 sehr grundlegende Beispiele zusammen mit einem schlechten API Referenz. Kennen Sie eine umfangreichere Dokumentation? –
Sie müssen die XPath-Dokumentation lesen. Was HtmlAgilityPack tut, ist die Unterstützung von XPath-Abfragen in Html – albertein