Ist es möglich, Code zu schreiben, der einen regulären Ausdruck oder XPath erzeugt, der Links basierend auf einem HTML-Dokument analysiert?Selbstlernender Ausdruck für reguläre Ausdrücke oder xpath?
Was ich will, ist eine Seite für einige Links zu analysieren. Das einzige, was ich weiß, ist, dass die meisten Links auf der Seite diese Links sind.
Für ein einfaches Beispiel nehmen Sie eine Google-Suchergebnisseite, zum Beispiel this. Die Mehrheit der Links ist aus den Suchergebnissen und sieht ungefähr wie folgt aus:
<h3 class="r"><a onmousedown="return rwt(this,'','','res','1','AFQjCNERidL9Hb6OvGW93_Y6MRj3aTdMVA','')" class="l" href="http://stackoverflow.com/"><em>Stack Overflow</em></a></h3>
Ist es möglich, Code zu schreiben, das lernt und erkennt dies und ist in der Lage alle Links zu analysieren, auch wenn Google ihre Präsentation ändert?
Ich denke darüber nach, alle Links zu analysieren und vor und nach jedem Tag nach X-Zeichen zu suchen und dann davon zu arbeiten.
Ich verstehe, dass dies auch mit XPath getan werden könnte, aber die Frage ist immer noch die gleiche. Kann ich diesen Inhalt analysieren und einen gültigen XPath generieren, um die serp-Links zu finden?
uh ... wird der Link nicht immer href = "etwas" sein? – dss539