Ich hoffe, jemand kann helfen, das macht mich verrückt!Regex entfernen www von URL
Ich versuche Logstash Grok Filter zu ändern, um einen Domain-Namen zu analysieren. Derzeit die Regex ist: \b(?:[0-9A-Za-z][0-9A-Za-z-]{0,62})(?:\.(?:[0-9A-Za-z][0-9A-Za-z-]{0,62}))*(\.?|\b)
und richtig trennt die Domäne, aber ich muss eine zusätzliche Überprüfung hinzufügen, um www.
zu entfernen.
Dies ist, was ich mit so weit gekommen sind:
\b(?:[0-9A-Za-z][0-9A-Za-z-]{0,62})(^(?<!www$).*$?:\.(?:[0-9A-Za-z][0-9A-Za-z-]{0,62}))*(\.?|\b)
Ich kann nur den www.
Teil der Domäne zu halten scheinen, und nicht die Domäne selbst. Beispiel für was ich erreichen muss: www.stackoverflow.com
sollte stackoverflow.com
sein.
Ich muss speziell www.
und nicht die gesamte Subdomäne entfernen.
Vielen Dank im Voraus!
UPDATE
Beispiel Eingänge zu erwarteten Ergebnisse (mit diesen Beitrag als Beispiel): In seiner aktuellen Zustand: https://stackoverflow.com/questions/37070358/
kehrt www.stackoverflow.com
Was ich brauche, ist für sie stackoverflow.com
Warum erfassen Sie nicht den Domain-Namen ohne den www-Teil? – CinCout
Wenn ich Ihre Frage richtig interpretiere, muss ich Subdomains einbeziehen, zum Beispiel: blog.stackoverflow.com, aber speziell www. Deshalb habe ich einen Rückblick versucht. Nicht sicher, wie man den Domain-Namen gerade fängt? – josh
also wollen Sie auch die Subdomain, nur wenn es www ist Sie wollen es fallen lassen? Können Sie uns mögliche Eingaben zeigen? – CinCout