2016-03-31 18 views
0

Ich habe ein paar URLs, die ich herunterladen muss. Ich sehe einige URLs haben unerwünschte Zeichen nach der Image-Erweiterung, die ich vor dem Download entfernen/löschen muss.Entfernen unerwünschter Zeichen nach der Bilderweiterung in einer Zeichenfolge

Zum Beispiel die folgende URL enthält ?6ce6a3= nach der JPEG-Erweiterung, die entfernt werden muss; Die Bilderweiterungen könnten png, jpg, jpeg oder gif sein. Ich brauche deine Eingabe, wie es geht. Muss ich eine Regex oder eine bereits in Python verfügbare Funktion verwenden? Ich weiß, verschiedene strip() Methoden sind verfügbar, aber ich bin mir nicht sicher, welche am besten funktioniert. Eine kleine Anleitung wird hilfreich sein. Ich habe eine ähnliche Frage hier gefunden: Removing unwanted characters after extension, aber du hast deine Erweiterung vorher schon kennengelernt.

url = 'http://4.kicksonfire.net/wp-content/uploads/2014/10/12.jpeg?6ce6a3=' 
print os.path.basename(url) # result 12.jpeg?6ce6a3= 
print os.path.splitext(url)[1] # .jpeg?6ce6a3= 

Antwort

1

Verwendung os.path.basename() in Kombination mit str.partition():

print os.path.basename(url).partition("?")[0] 
Verwandte Themen