Wie bekomme ich eine Untergruppe von Wikipedia-Seiten?

Wie bekomme ich eine Teilmenge (sagen wir 100MB) von Wikipedia-Seiten? Ich habe festgestellt, dass Sie den gesamten Datensatz als XML erhalten können, aber es ist eher wie 1 oder 2 Gigs; Ich brauche nicht viel.Wie bekomme ich eine Untergruppe von Wikipedia-Seiten?

Ich möchte mit der Implementierung eines Map-Reduce-Algorithmus experimentieren.

Having said that, wenn ich nur 100 MB Textdaten probe von irgendwo finden könnte, wäre das auch gut. Z.B. Die Stack Overflow-Datenbank, wenn sie verfügbar ist, hätte möglicherweise eine gute Größe. Ich bin offen für Vorschläge.

Edit: Alle, die nicht Torrents sind? Ich kann die bei der Arbeit nicht bekommen.

Quelle

2009-08-24 Chris

Die Stackoverflow-Datenbank ist für download verfügbar.

Quelle

2009-08-24 04:29:18 Alex

Schade, dass es ein Strom ist, kann ich nicht bei der Arbeit bekommen. – Chris

Hier ist ein Link zum neuesten Download: http://blog.stackoverflow.com/category/cc-wiki-dump/ – Chris

reden wir hier über die gleiche DB? – Leo

Wenn Sie eine Kopie der Stackoverflow-Datenbank erhalten möchten, können Sie dies unter the creative commons data dump tun.

Aus Neugier, wofür verwenden Sie all diese Daten?

Quelle

2009-08-24 04:31:41

Ich möchte experimentieren mit der Implementierung eines Mapreduce-Algorithmus – Chris

Eine Möglichkeit besteht darin, den gesamten Wikipedia-Dump herunterzuladen und dann nur einen Teil davon zu verwenden. Sie können entweder die gesamte Sache dekomprimieren und dann ein einfaches Skript verwenden, um die Datei in kleinere Dateien aufzuteilen (zB here), oder wenn Sie sich Sorgen um Speicherplatz machen, können Sie etwas schreiben, ein Skript, das dekomprimiert und aufteilt, und Dann können Sie den Dekomprimierungsprozess jederzeit stoppen. Wikipedia Dump Reader kann durch Ihre Inspiration für die Dekomprimierung und Verarbeitung im laufenden Betrieb, wenn Sie mit Python vertraut sind (siehe mparser.py).

Wenn Sie nicht das gesamte Ding herunterladen möchten, haben Sie die Möglichkeit zu scarpen. Die Export feature könnte dafür hilfreich sein, und die wikipediabot wurde auch in diesem Zusammenhang vorgeschlagen.

Quelle

2009-08-24 05:06:41 daphshez

Ja, ich bin in Australien, unsere Internet-Download-Grenzen irgendwie verhindern, das Herunterladen der ganzen Menge. Nachdem wir das gesagt haben, bekommen wir alle Glasfaser-zu-dem-Haus-Breitband (in einer Million Jahren), und es wird unser Land kaputt machen, also könnte ich immer darauf warten?/rant – Chris

Richtig. Dann schau dir die Exportfunktion an. Wenn ich es richtig verstehe, ist es weniger schwer auf den Servern und in der Bandbreite dann kriechen. – daphshez

Sie könnten einen Web-Crawler verwenden und 100 MB Daten scrappen?

Quelle

2009-08-24 05:08:59

Nicht allzu scharf darauf, ihre Server zu bestrafen! – Chris

Chris, du könntest einfach ein kleines Programm schreiben, um den Wikipedia "Zufällige Seite" Link zu erreichen, bis du 100MB Webseiten bekommst: http://en.wikipedia.org/wiki/Special:Random. Sie sollten alle Duplikate, die Sie möglicherweise erhalten, verwerfen, und Sie möchten vielleicht auch die Anzahl der Anfragen pro Minute begrenzen (obwohl ein Bruchteil der Artikel von Zwischen-Web-Caches und nicht von Wikipedia-Servern bereitgestellt wird). Aber es sollte ziemlich einfach sein.

Quelle

2009-08-24 05:39:29

Wissen Sie, das ist keine schlechte Idee. Es würde eine schöne Untermenge geben. Ich bin besorgt, dass es einfach ewig dauern wird, das ist mein einziges Problem. – Chris

Es gibt viele Wikipedia-Dumps. Warum möchtest du das größte (englische Wiki) wählen? Wikinews Archive sind viel kleiner.

Quelle

2011-02-24 08:44:10

Wie bekomme ich eine Untergruppe von Wikipedia-Seiten?

Antwort

Verwandte Themen