-3
Ich brauche Links und Bilder von HTML-Seiten mit c filtern ++ und regex und ich kam mit diesem Satz auf:Regex ignorieren HTML-Kommentare
<\s*(a.*?href|img.*?src)\s*=\s*\"(.*?)\".*?\s*>
leider wird dies auch Links und Bilder innerhalb von Kommentaren finden, die es shouldn‘ t. Ich habe einige negative Ausblicke ohne Erfolg versucht.
Bitte lesen Sie dies einmal: https://Stackoverflow.com/a/1732454/2815219 –
Ich muss alle Links und Bilder von Websites für ein Webcrawler-Projekt für meine Universität extrahieren. <\ s * (a. *? Href | img. *? Src) \ s * = \ s * \ "(. *?) \". *? \ S *> extrahiert alle Links und Bilder, aber wir sollten nicht kommen diejenigen innerhalb der Kommentare. Zum Beispiel wird diese Regex finden die es sollte sowie -> was sollte es nicht – Doodle
nicht verwenden Regex dafür. Verwenden Sie einen richtigen HTML-Parser. –