2017-03-23 3 views
0

Ich versuche, die Wikipedia-API zu verwenden, um alle Links auf allen Seiten zu erhalten. Ich bin derzeit mitErstellen eines Baumes von Wikipedia-Links

https://en.wikipedia.org/w/api.php?format=json&action=query&generator=alllinks&prop=links&pllimit=max&plnamespace=0

aber dies scheint nicht auf dem ersten Artikel und endet am letzten zu starten. Wie kann ich dies erreichen, um alle Seiten und alle ihre Links zu generieren?

+0

https://dumps.wikimedia.org/enwiki/ – Termininja

+0

Sie würden 'generator = allpages' wollen, aber Sie wollen damit wahrscheinlich nicht alle vierzig Millionen Seiten der englischen Wikipedia durchblättern. – Tgr

Antwort

0

Die englische Wikipedia hat etwa 1,05 Milliarden interne Links. Wenn man bedenkt, dass das Modul list=alllinks ein Limit von 500 Links pro Anfrage hat, ist es nicht realistisch, alle Links von der API zu erhalten.

Stattdessen können Sie Wikipedia's database dumps herunterladen und diese verwenden. Insbesondere möchten Sie die pagelinks Dump, die Informationen über die Links selbst und sehr wahrscheinlich auch die page Dump, für die Zuordnung von Seiten-IDs zu Seitentiteln enthält.

Verwandte Themen