So öffnen Sie eine URL und extrahieren Informationen in Python

Ich habe ein Web-Scrape geschrieben, um Google Gelehrte Informationen zu extrahieren. Allerdings sind alle zweckdienlichen Tools wie urllib2 pr-Anforderungen fehlgeschlagen. Und es gab mir 503 Fehlercode.So öffnen Sie eine URL und extrahieren Informationen in Python

Und ich bin auf der Suche nach einem alternativen Weg, um die Informationen zu extrahieren. Ist das möglich, kann ich das Programm die URL beim Browsen öffnen lassen und dann Informationen extrahieren.

Zum Beispiel ist es ein Link:

'http://scholar.google.com/citations?user=lTCxlGYAAAAJ&hl=en'

Und wie es weitergeht H-Index zu erhalten, etc?

Quelle

2016-11-08 Daniel

http://docs.python-guide.org/en/latest/scenarios/scrape/ – SteveJ

Nein, es funktioniert nicht. Immer noch "503" -Fehler. – Daniel

Sieht aus wie Google Scholar Clients temporär verbietet (mit 503 Fehlercodes), die häufig Abfragen oder scheint, automatisiert zu sein. Sie wurden vielleicht vorübergehend gesperrt, nachdem Sie zu oft abgefragt haben oder weil Sie glauben, dass Sie von einem Skript aus arbeiten. Möglicherweise können Sie Cookies verwenden, um mehrere Abfragen innerhalb einer einzelnen Sitzung auszuführen. Oder warten Sie, bis das Verbot aufgehoben wird, oder warten Sie zwischen den Versuchen, oder schreiben Sie Ihr Skript so, als ob es von einem Webbrowser stammt (indem Sie die Zeichenfolge 'userAgent' ändern, die in der Abfrage gesendet wird).

Machen Sie eine Google-Suche auf "Google Scholar 503" für eine Menge Informationen zu diesem Thema (das ist alles, was ich getan habe).

Siehe hierzu auch: 503 error when trying to access Google Patents using python

Quelle

2016-11-08 22:27:41

Nun, ich habe tatsächlich etwas darüber recherchiert, aber kaum brauchbare Lösungen gefunden. – Daniel

Sie müssen in Ihre ursprüngliche Frage einbeziehen, was Sie recherchiert, gefunden, ausprobiert haben usw. Haben Sie beispielsweise die Lösungen in den Antworten und Kommentaren auf der Seite versucht, mit der ich verlinkt habe (dh zwischen Anfragen usw.)? Haben sie versagt? Hast du den Wiederholungs-Header gelesen? Zeig uns deinen Code. –

So öffnen Sie eine URL und extrahieren Informationen in Python

Antwort

Verwandte Themen