Ich versuche RegEx zu verwenden, um einen bestimmten Teil von URLs zu extrahieren, die in verschiedenen Variationen enthalten sind. Hier ist das generische Format:Extrahieren eines Teils einer URL mithilfe von RegEx
http://www.blackpages.com/cityName-StateName/mip/part-I-want-to-extract/randomCharacters
manchmal, dass "mip" -Teil nicht existiert und die URL sieht wie folgt aus:
http://www.blackpages.com/cityName-StateName/part-I-want-to-extract/randomCharacters
Ich schreibe folgendes RE gestartet:
re.compile("blackpages\.com/.*")
Die .*
entspricht einem beliebigen Zeichen. Nun, wie höre ich auf, wenn ich auf ein "/" stoße und alles extrahiere, was folgt, bevor das nächste "/" angetroffen wird? Dies würde mir den Teil geben, den ich extrahieren möchte.
Rakesh, mehr Sorgen? Bitte zögern Sie nicht, eine Zeile unterhalb meiner Antwort zu schreiben. –