2009-08-24 3 views
3

Wie bekomme ich eine Teilmenge (sagen wir 100MB) von Wikipedia-Seiten? Ich habe festgestellt, dass Sie den gesamten Datensatz als XML erhalten können, aber es ist eher wie 1 oder 2 Gigs; Ich brauche nicht viel.Wie bekomme ich eine Untergruppe von Wikipedia-Seiten?

Ich möchte mit der Implementierung eines Map-Reduce-Algorithmus experimentieren.

Having said that, wenn ich nur 100 MB Textdaten probe von irgendwo finden könnte, wäre das auch gut. Z.B. Die Stack Overflow-Datenbank, wenn sie verfügbar ist, hätte möglicherweise eine gute Größe. Ich bin offen für Vorschläge.

Edit: Alle, die nicht Torrents sind? Ich kann die bei der Arbeit nicht bekommen.

Antwort

4

Die Stackoverflow-Datenbank ist für download verfügbar.

+0

Schade, dass es ein Strom ist, kann ich nicht bei der Arbeit bekommen. – Chris

+0

Hier ist ein Link zum neuesten Download: http://blog.stackoverflow.com/category/cc-wiki-dump/ – Chris

+0

reden wir hier über die gleiche DB? – Leo

1

Wenn Sie eine Kopie der Stackoverflow-Datenbank erhalten möchten, können Sie dies unter the creative commons data dump tun.

Aus Neugier, wofür verwenden Sie all diese Daten?

+0

Ich möchte experimentieren mit der Implementierung eines Mapreduce-Algorithmus – Chris

0

Eine Möglichkeit besteht darin, den gesamten Wikipedia-Dump herunterzuladen und dann nur einen Teil davon zu verwenden. Sie können entweder die gesamte Sache dekomprimieren und dann ein einfaches Skript verwenden, um die Datei in kleinere Dateien aufzuteilen (zB here), oder wenn Sie sich Sorgen um Speicherplatz machen, können Sie etwas schreiben, ein Skript, das dekomprimiert und aufteilt, und Dann können Sie den Dekomprimierungsprozess jederzeit stoppen. Wikipedia Dump Reader kann durch Ihre Inspiration für die Dekomprimierung und Verarbeitung im laufenden Betrieb, wenn Sie mit Python vertraut sind (siehe mparser.py).

Wenn Sie nicht das gesamte Ding herunterladen möchten, haben Sie die Möglichkeit zu scarpen. Die Export feature könnte dafür hilfreich sein, und die wikipediabot wurde auch in diesem Zusammenhang vorgeschlagen.

+1

Ja, ich bin in Australien, unsere Internet-Download-Grenzen irgendwie verhindern, das Herunterladen der ganzen Menge. Nachdem wir das gesagt haben, bekommen wir alle Glasfaser-zu-dem-Haus-Breitband (in einer Million Jahren), und es wird unser Land kaputt machen, also könnte ich immer darauf warten?/rant – Chris

+0

Richtig. Dann schau dir die Exportfunktion an. Wenn ich es richtig verstehe, ist es weniger schwer auf den Servern und in der Bandbreite dann kriechen. – daphshez

0

Sie könnten einen Web-Crawler verwenden und 100 MB Daten scrappen?

+0

Nicht allzu scharf darauf, ihre Server zu bestrafen! – Chris

2

Chris, du könntest einfach ein kleines Programm schreiben, um den Wikipedia "Zufällige Seite" Link zu erreichen, bis du 100MB Webseiten bekommst: http://en.wikipedia.org/wiki/Special:Random. Sie sollten alle Duplikate, die Sie möglicherweise erhalten, verwerfen, und Sie möchten vielleicht auch die Anzahl der Anfragen pro Minute begrenzen (obwohl ein Bruchteil der Artikel von Zwischen-Web-Caches und nicht von Wikipedia-Servern bereitgestellt wird). Aber es sollte ziemlich einfach sein.

+0

Wissen Sie, das ist keine schlechte Idee. Es würde eine schöne Untermenge geben. Ich bin besorgt, dass es einfach ewig dauern wird, das ist mein einziges Problem. – Chris

0

Es gibt viele Wikipedia-Dumps. Warum möchtest du das größte (englische Wiki) wählen? Wikinews Archive sind viel kleiner.

Verwandte Themen