Ich suchte nach einer Möglichkeit, PDF-Dateien in Python herunterzuladen, und ich sah Antworten auf andere Fragen, die das urllib-Modul empfehlen. Ich habe versucht, eine PDF-Datei damit zu laden, aber wenn ich versuche, die heruntergeladene Datei zu öffnen, erscheint eine Meldung, dass die Datei nicht geöffnet werden kann.Wie lade ich PDF-Dateien mit Python herunter?
Dies ist der Code, den ich
Gebraucht-import urllib
urllib.urlretrieve("http://papers.gceguide.com/A%20Levels/Mathematics%20(9709)/9709_s11_qp_42.pdf", "9709_s11_qp_42.pdf")
Was mache ich falsch? Außerdem speichert die Datei automatisch das Verzeichnis, in dem sich meine Python-Datei befindet. Wie ändere ich den Speicherort, an dem die Datei gespeichert wird?
Bearbeiten- Ich versuchte es noch einmal mit dem Link zu einer Probe pdf, http://unec.edu.az/application/uploads/2014/12/pdf-sample.pdf
Der Code wird mit diesem Link funktioniert, also warum wird es nicht für den anderen arbeiten?
Sie 'requests' für diese Aufgabe verwenden: http://stackoverflow.com/questions/34503412/download-and-save-pdf-file-with-python-requests-module –
@DavidZemens ich gewonnen Nenn es nicht ein Duplikat. Das OP ist besorgt, dass seine Lösung nicht funktioniert, sondern dass sie eine andere Lösung findet. –
Wenn ich zu dieser URL gehe, erhalte ich zuerst ein Captcha (durch Cloudflare), um zu beweisen, dass ich kein Roboter bin und erst dann auf die PDF zugreifen kann. Auch Cloudflare-Sites beschränken den Zugriff oft auf Basis eines Benutzeragenten. Wenn Sie die Datei in einem Texteditor öffnen, finden Sie dort wahrscheinlich HTML anstelle von PDF. – mata