2016-11-08 2 views
0

Ich habe ein Web-Scrape geschrieben, um Google Gelehrte Informationen zu extrahieren. Allerdings sind alle zweckdienlichen Tools wie urllib2 pr-Anforderungen fehlgeschlagen. Und es gab mir 503 Fehlercode.So öffnen Sie eine URL und extrahieren Informationen in Python

Und ich bin auf der Suche nach einem alternativen Weg, um die Informationen zu extrahieren. Ist das möglich, kann ich das Programm die URL beim Browsen öffnen lassen und dann Informationen extrahieren.

Zum Beispiel ist es ein Link:

'http://scholar.google.com/citations?user=lTCxlGYAAAAJ&hl=en' 

Und wie es weitergeht H-Index zu erhalten, etc?

+0

http://docs.python-guide.org/en/latest/scenarios/scrape/ – SteveJ

+0

Nein, es funktioniert nicht. Immer noch "503" -Fehler. – Daniel

Antwort

0

Sieht aus wie Google Scholar Clients temporär verbietet (mit 503 Fehlercodes), die häufig Abfragen oder scheint, automatisiert zu sein. Sie wurden vielleicht vorübergehend gesperrt, nachdem Sie zu oft abgefragt haben oder weil Sie glauben, dass Sie von einem Skript aus arbeiten. Möglicherweise können Sie Cookies verwenden, um mehrere Abfragen innerhalb einer einzelnen Sitzung auszuführen. Oder warten Sie, bis das Verbot aufgehoben wird, oder warten Sie zwischen den Versuchen, oder schreiben Sie Ihr Skript so, als ob es von einem Webbrowser stammt (indem Sie die Zeichenfolge 'userAgent' ändern, die in der Abfrage gesendet wird).

Machen Sie eine Google-Suche auf "Google Scholar 503" für eine Menge Informationen zu diesem Thema (das ist alles, was ich getan habe).

Siehe hierzu auch: 503 error when trying to access Google Patents using python

+0

Nun, ich habe tatsächlich etwas darüber recherchiert, aber kaum brauchbare Lösungen gefunden. – Daniel

+0

Sie müssen in Ihre ursprüngliche Frage einbeziehen, was Sie recherchiert, gefunden, ausprobiert haben usw. Haben Sie beispielsweise die Lösungen in den Antworten und Kommentaren auf der Seite versucht, mit der ich verlinkt habe (dh zwischen Anfragen usw.)? Haben sie versagt? Hast du den Wiederholungs-Header gelesen? Zeig uns deinen Code. –

Verwandte Themen