2016-12-25 4 views
-1

Ich arbeite an einem Projekt, wo ich hoffe, Daten von Google Scholar zu kratzen. Ich möchte alle Autoren, die in einer Kategorie markiert sind (z. B. Anaphylaxis), abkratzen und deren Anzahl an Zitaten, h-Index und i-10-Index in einer CSV-Datei speichern. Ich bin mir jedoch nicht sicher, wie dies zu tun ist, da Google Scholar über keine API verfügt. Ich verstehe, dass ich einen Schaber wie schöne Suppe verwenden kann, bin aber unsicher, wie man die Daten abschabt, ohne blockiert zu werden.Scraping Autoren basierend auf Tags von Google Scholar

Also, meine Frage ist, wie kann ich bs4 verwenden, um alle Autoren als Anaphylaxis und Zitaten, h-Index und i-10-Index jedes Autors in einer CSV-Datei gespeichert zu speichern.

+0

Also, was ist die Frage? – Peaceful

+0

@Peaceful Habe aktualisiert um zu klären – user7339949

+0

Klingt ziemlich interessant! Ich habe keine Antwort, vor allem nicht blockiert zu werden. Vielleicht haben Sie https://pypi.python.org/pypi/scholarly/0.2.2 noch nicht gesehen? Der Code könnte auf diesen Ergebnissen basieren. –

Antwort

0

Der ganze Scraper macht gerade einige HTML-Seiten zu analysieren. Bei einer Suche sind die Autoren im div mit class = "gs_a" Wenn Sie Beautiful Soup verwenden und nach dieser Klasse suchen, können Sie alle Autoren finden. Sie können Seite für Seite gehen, indem Sie die URL aktualisieren.

https://scholar.google.ca/scholar?start=20&q=polymer&hl=en&as_sdt=0,5 zu https://scholar.google.ca/scholar?start=30&q=polymer&hl=en&as_sdt=0,5

dh. Der Start = 30 dann 40 etc.

Dann können Sie über die Autorennamen Basis auf den Link-Pfad in der gs_a-Klasse-Tags.

Lassen Sie mich wissen, ob dies hilft!

-Kyle

+0

Ich interessiere mich für die Gesamtzahl der Zitate jedes Autors, nicht die Papiere – user7339949

Verwandte Themen