Ich baue einen Web-Crawler mit urllib3
. Beispielcode:Python | Http - kann den richtigen Mime-Typ nicht bekommen
from urllib3 import PoolManager
pool = PoolManager()
response = pool.request("GET", url)
mime_type = response.getheader("content-type")
ich auf einige Links gestolpert Dateien zu dokumentieren wie docx und epub und den MIME-Typ bin ich vom Server bekommen ist text/plain
.Es mir wichtig ist, die richtige Mime zu bekommen Art.
Beispiel zu einer problematischen url:
Im Augenblick ist die Logik der Mime-Typ Datei bekommen wird sie vom Server bekommen und wenn nicht verfügbar versuchen die Dateierweiterung zu erhalten.
Wie kommt es, dass Firefox
nicht durch diese Art von URLs verwirrt wird und der Benutzer die Datei sofort herunterladen kann? Woher weiß es, dass diese Datei kein einfacher Text ist? Wie kann ich den richtigen Mime-Typ bekommen?
Wie greifen Sie auf den Mime-Typ in der "Antwort" zu? – lucasnadalutti
Ich habe die Frage aktualisiert. –
Dies könnte ein Workaround für diese Frage sein. Speichern Sie zuerst die Antwort in einer temporären Datei. Und dann holen Sie den 'content-type' für den gespeicherten Dateinamen. [link] (http://stackoverflow.com/questions/43580/how-to-find-the-mime-type-of-a-file-in-python) –