Es ist eine Weile her, seit ich Regex verwendet habe, und ich denke, das sollte einfach sein, um herauszufinden.Passende URL in HTML mit Regex
Ich habe eine Webseite voller Links, die aussieht wie die string_to_match im folgenden Code. Ich möchte nur die Zahlen in den Links, wie Nummer "58" in der string_to_match greifen. Für das Leben von mir kann ich es nicht herausfinden.
import re
string_to_match = '<a href="/ncf/teams/roster?teamId=58">Roster</a>'
re.findall('<a href="/ncf/teams/roster?teamId=(/d+)">Roster</a>',string_to_match)
Warum verwenden, warum, warum versuchen, die Menschen halten, um [Parse-HTML mit regulären Ausdrücken?!?] (Http://stackoverflow.com/ a/1732454/364696) Verwenden Sie [einen HTML-Parser] (https://www.crummy.com/software/BeautifulSoup/bs4/doc/). Es kann die Tags, die Ihnen wichtig sind, mit den erwarteten Attributen finden, es für Sie herausholen und [URL analysieren] (https://docs.python.org/3/library/urllib.parse.html), um das zu erhalten "GET" -Parameter, die korrekt und weitgehend selbst dokumentierender Code sind. Selbst wenn die Regex schneller sein sollte, ist ein nicht mehr wartbarer und möglicherweise falscher Code keine Verbesserung. – ShadowRanger
Mögliches Duplikat von [RegEx-Übereinstimmungs-Open-Tags außer XHTML-eigenen Tags] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) –