Ich brauche die Nummer täglich Seitenaufrufe der englischen Wikipedia Artikel auf "Dollar" und "Euro" von 06/2012-06/2016.Arbeiten mit großen * .bz2 (Wikipedia Dump)
Raw-Dumps (* .bz2) finden Sie unter: https://dumps.wikimedia.org/other/pagecounts-ez/merged/
Zum Beispiel https://dumps.wikimedia.org/other/pagecounts-ez/merged/pagecounts-2014-01-views-ge-5-totals.bz2 Stunden-/Tagesdaten für Januar 2014
Problem bietet: Die entpackten Dateien sind zu groß in jedem Texteditor geöffnet werden.
Gewünschte Lösung: Ein Python-Skript, das nur jeder der .bz2 Dateien, sucht die en wikipedia „Dollar“/„Euro“ -Eintrag liest und legt die täglichen Seitenaufrufe in einen Datenrahmen (?).
Hinweis: Verwendung der Seiten-API (https://wikitech.wikimedia.org/wiki/Pageviews_API) nicht hilfreich sein, da ich konsistente Daten benötigen, um vor 2015 stats.grok Daten (http://stats.grok.se/) ist weder eine Option, da die erzeugten Daten unterschiedliche und inkompatible .
FWIW, [Vim] (http: // www. vim.org/) kann beliebig große Dateien problemlos verarbeiten. – Tgr
Sie brauchen nichts davon, Sie können einfach die Dateien "bzgrep", da jede Zeile über eine einzelne Seite ist. Ein Skript wird nur benötigt, wenn Sie die Daten z. Zusammenfassung der Seitenaufrufe für Weiterleitungen – Nemo