Regex ignorieren HTML-Kommentare

-3

Ich brauche Links und Bilder von HTML-Seiten mit c filtern ++ und regex und ich kam mit diesem Satz auf:Regex ignorieren HTML-Kommentare

<\s*(a.*?href|img.*?src)\s*=\s*\"(.*?)\".*?\s*>

leider wird dies auch Links und Bilder innerhalb von Kommentaren finden, die es shouldn‘ t. Ich habe einige negative Ausblicke ohne Erfolg versucht.

Quelle

2017-07-22 Doodle

Bitte lesen Sie dies einmal: https://Stackoverflow.com/a/1732454/2815219 –

Ich muss alle Links und Bilder von Websites für ein Webcrawler-Projekt für meine Universität extrahieren. <\ s * (a. *? Href | img. *? Src) \ s * = \ s * \ "(. *?) \". *? \ S *> extrahiert alle Links und Bilder, aber wir sollten nicht kommen diejenigen innerhalb der Kommentare. Zum Beispiel wird diese Regex finden die es sollte sowie -> was sollte es nicht – Doodle

nicht verwenden Regex dafür. Verwenden Sie einen richtigen HTML-Parser. –

Es gibt keinen Grund, alles auf einmal zu machen. Außerdem hast du nicht gesagt, welche Umgebung/Editor/Programmiersprache, so wählte ich mein Lieblings, C#.

Entfernen Sie alle Kommentare:

mit

var s1 = source.Replace("<!--.*?-->", "");

Extract Links mit Ihrer vorhandenen Regex:

mit

var s2 = Regex.Matches(s1, "<\\s*(a.*?href|img.*?src)\\s*=\\s*\"(.*?)\".*?\\s*> ");

Quelle

2017-07-24 21:56:27 NetMage

Regex ignorieren HTML-Kommentare

Antwort

Verwandte Themen