Ich versuche, eine Regex zu erstellen, um alle eine href Links, die meine Domäne enthalten, und ich werde am Ende die Links entfernen. Es funktioniert gut, bis ich in einen Link a href, der ein anderes HTML-Tag innerhalb des Tags hat.Regex-Muster zu A Href und Entfernen
Regex Statement:
(<a[^<]*coreyjansen\.com[^<]*>)([^"]*?)(<\/a>)
Es bringt die a href Links in dieser Aussage kein Problem
Need a lawyer? Contact <span style="color: #000000"><a
href="http://coreyjansen.com/">Random text is great</a> <a
href="http://coreyjansen.com/practice/family/">Corey is awesome</a></span>
Es ist nicht in der Lage dies sowohl der a href Links entsprechen Aussage:
<strong><a href="http://coreyjansen.com/"><img class="alignright size-full
wp-image-12" src="http://50h0.com/wp-content/uploads/2014/06/lawyers.jpg"
alt="lawyers" width="250" height="250" /></a>
Ich habe versucht, mit dem vernachlässigten Zeichensatz ohne Glück zu spielen. Wenn ich den vernachlässigten Zeichensatz entferne, werden zwei aufeinanderfolgende Links wie Beispiel 2 als eine Übereinstimmung gefunden.
Verwenden Sie stattdessen einen Parser für Ihre Programmiersprache! – Jan
Statt durch HTML-Tags zu suchen, warum Sie nicht für Ihre Domain im gesamten HTML-Code suchen und dann entscheiden (manuell), die Links zu tun und gehört nicht. Dies verhindert, dass Sie einen Parser benötigen und auch Dinge wie Javascript, Umleitungen, CSS Links, Image-Tags fangen, usw. – ctwheels