MediaWiki speichern Dateidaten in zwei oder drei Stellen, je nachdem, wie Sie zählten:
Die tatsächlichen Metadaten für aktuelle Dateiversionen in der image
Tabelle gespeichert. Dies ist wahrscheinlich das, was Sie in erster Linie wollen; Sie finden den neuesten en.wikipedia Dump von ihm here.
Daten für alte ersetzte Dateirevisionen werden in die Tabelle oldimage
verschoben, die im Wesentlichen die gleiche Struktur wie die Tabelle image
hat. Diese Tabelle ist auch entsorgt, die neueste ist here.
Schließlich entspricht jede Datei auch (normalerweise) einer ziemlich gewöhnlichen Wiki-Seite in Namespace 6 (File:
). Sie finden den Text davon in den XML-Dumps, genauso wie für alle anderen Seiten.
Oh, und der Grund, warum Sie nicht die Dateien, Sie verknüpft in der englischen Wikipedia-Dumps ist, dass sie aus dem gemeinsamen Repository auf Wikimedia Commons finden. Sie finden sie stattdessen in der Commons data dumps.
Was die eigentlichen Dateien herunterzuladen, here's the (apparently) official documentation. Soweit ich sagen kann, alle bedeuten, dass sie von „Bulk-Download ist derzeit (Stand: September 2012), das von Spiegel, aber nicht direkt von Wikimedia-Servern angeboten.“ ist, dass Wenn Sie alle Bilder in einem Tarball haben möchten, müssen Sie einen Spiegel verwenden. Wenn Sie nur eine relativ kleine Teilmenge der Millionen von Bildern auf Wikipedia und/oder Commons ziehen, sollten Sie die Wikimedia-Server direkt verwenden.
Denken Sie daran, grundlegende Höflichkeit zu üben: senden Sie eine user-agent string identifizieren Sie sich und nicht die Server zu hart treffen. Insbesondere würde ich empfehlen, die Downloads nacheinander auszuführen, so dass Sie erst dann die nächste Datei herunterladen, nachdem Sie die vorherige Datei beendet haben.Dies ist nicht nur einfacher als das parallele Herunterladen, sondern es stellt sicher, dass Sie nicht mehr als Ihren Anteil an der Bandbreite in Anspruch nehmen und die Downloadgeschwindigkeit mehr oder weniger automatisch an die Serverlast anpassen kann.
Ps. Egal, ob Sie die Dateien von einem Spiegel oder direkt von den Wikimedia-Server herunterzuladen, gehen Sie Ihre müssen, um herauszufinden, in welchem Verzeichnis sie sind in typischen Wikipedia Datei-URLs wie folgt aussehen:.
http://upload.wikimedia.org/wikipedia/en/a/ab/File_name.jpg
, wo die „wikipedia/en
“ -Teil identifiziert das Wikimedia-Projekt und die Sprache (aus historischen Gründen wird Commons als "wikipedia/commons
" aufgeführt) und the "a/ab
" part wird durch die ersten zwei Hexadezimalziffern des MD5-Hashs des Dateinamens in UTF-8 angegeben (da sie in den Datenbank-Dumps codiert sind)).
Hier ist ein Beispiel für ein zweites Bild, das die gleichen Symptome zeigt. Ich habe einen Haufen ausprobiert und noch keinen gefunden, der in den Müllhalden ist. http://en.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg –