2017-07-19 5 views
0

Ich versuche, vollständige Autor Liste aller Publikationen von einem Autor auf Google Scholar mit BeautifulSoup zu bekommen. Da die Homepage für den Autor nur eine gekürzte Liste von Autoren für jedes Papier hat, muss ich den Link des Papiers öffnen, um die vollständige Liste zu erhalten. Als Ergebnis stieß ich CAPTCHA alle paar Versuche.Scraping große Menge von Google Scholar Seiten mit URL

Gibt es eine Möglichkeit, CAPTCHA zu vermeiden (z. B. 3 Sekunden nach jeder Anfrage pausieren)? Oder machen Sie die ursprüngliche Google Scholar-Profilseite so, dass die vollständige Autorenliste angezeigt wird?

Antwort

2

Kürzlich sah ich ähnliches Problem. Ich nachgelassen dest meine Sammlung Prozess mit einem einfachen Problem zu umgehen, indem ein zufälligen und eher langanhaltende Schlaf wie diese Umsetzung:

import time 
import numpy as np 

time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds 

Wenn Sie genügend Zeit haben (sie starten sagen Sie Ihren Parser in der Nacht), können Sie Machen Sie noch größere Pause (3+ mal größer), um sicherzustellen, dass Sie kein Captcha bekommen.

Darüber hinaus können Sie user-agent s in Ihren Anforderungen an die Site zufällig ändern, die Sie noch mehr maskieren wird.

Verwandte Themen