2011-01-06 12 views
0

Wie es möglich ist, HTML-Links einfach zu analysieren. Zum Beispiel erhalte ich eine HTTP-Antwort, die http enthält. In dem Sie Links zu anderen Dateien haben, die heruntergeladen werden müssen, zum Beispiel jpgs, css-Dateien, js-Dateien. Was ist der einfachste Weg, all diese Referenzen zu analysieren?Wie HTML-Referenzen einfach zu analysieren

+0

Wenn Sie es in C++ benötigen, dann tag es C++ das nächste Mal ... oh und Sie sollten ** total ** versuchen Regex: http://StackOverflow.com/Questions/1732348/regex-match-Open- tag-except-xhtml-in sich geschlossene-tags/1732454 # 1732454 –

+1

@ivo, du schlägst regex vor und zeigst auf den Fluch von html mit regex zu parsen .. * hmmm .. *, fehlt dir ein ** not ** in Dort ? –

+0

@Gaby Nicht der Link selbst steht für Sarkasmus? :) –

Antwort

1

Verwenden Sie einen HTML-Parser für Ihre Plattform/Sprache.

Es gibt einige Empfehlungen für C++ - Einsen here.

Sobald Sie ein Dokument analysiert hat, müssen Sie an jedem src und href darin suchen - Sie müssen auch den base Tag erinnern, wenn eine Logik für externe, relative und absolute Pfade existiert und hinzufügen.