2013-04-05 7 views
6

Ich versuche, eine umfassende Liste aller Bilder auf Wikipedia zu finden, die ich dann zu den öffentlichen Domänen filtern kann. Ich habe die SQL-Dumps von hier heruntergeladenFinden und Herunterladen von Bildern innerhalb der Wikipedia Dump

http://dumps.wikimedia.org/enwiki/latest/

und studierte die DB-Schema:

http://upload.wikimedia.org/wikipedia/commons/thumb/4/42/MediaWiki_1.20_%2844edaa2%29_database_schema.svg/2193px-MediaWiki_1.20_%2844edaa2%29_database_schema.svg.png

Ich glaube, ich verstehe es, aber wenn ich wählen Sie ein Beispielbild von einer Wikipedia-Seite Ich kann es nirgendwo auf den Müllkippen finden. Zum Beispiel:

http://en.wikipedia.org/wiki/File:Carrizo_2a.JPG

Ich habe einen grep auf dem ‚Bild‘ Dumps getan, ‚image‘ und ‚Seite‘ Suche ‚Carrizo_2a.JPG‘ und es ist nicht gefunden.

Sind diese Speicherauszüge nicht vollständig? Missverstehe ich die Struktur? Gibt es einen besseren Weg, dies zu tun?

Auch, um einen Schritt voraus zu springen: nachdem ich meine Liste gefiltert habe und ich eine Menge Bilder (Tausende) herunterladen möchte, sah ich einige Erwähnungen, dass ich dies von einem Spiegel der Website tun muss, um zu verhindern Wikipedia/Wikimedia überladen. Wenn auch diesbezüglich eine Anleitung vorhanden ist, wäre das hilfreich.

+0

Hier ist ein Beispiel für ein zweites Bild, das die gleichen Symptome zeigt. Ich habe einen Haufen ausprobiert und noch keinen gefunden, der in den Müllhalden ist. http://en.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg –

Antwort

10

MediaWiki speichern Dateidaten in zwei oder drei Stellen, je nachdem, wie Sie zählten:

  • Die tatsächlichen Metadaten für aktuelle Dateiversionen in der image Tabelle gespeichert. Dies ist wahrscheinlich das, was Sie in erster Linie wollen; Sie finden den neuesten en.wikipedia Dump von ihm here.

  • Daten für alte ersetzte Dateirevisionen werden in die Tabelle oldimage verschoben, die im Wesentlichen die gleiche Struktur wie die Tabelle image hat. Diese Tabelle ist auch entsorgt, die neueste ist here.

  • Schließlich entspricht jede Datei auch (normalerweise) einer ziemlich gewöhnlichen Wiki-Seite in Namespace 6 (File:). Sie finden den Text davon in den XML-Dumps, genauso wie für alle anderen Seiten.

Oh, und der Grund, warum Sie nicht die Dateien, Sie verknüpft in der englischen Wikipedia-Dumps ist, dass sie aus dem gemeinsamen Repository auf Wikimedia Commons finden. Sie finden sie stattdessen in der Commons data dumps.

Was die eigentlichen Dateien herunterzuladen, here's the (apparently) official documentation. Soweit ich sagen kann, alle bedeuten, dass sie von „Bulk-Download ist derzeit (Stand: September 2012), das von Spiegel, aber nicht direkt von Wikimedia-Servern angeboten.“ ist, dass Wenn Sie alle Bilder in einem Tarball haben möchten, müssen Sie einen Spiegel verwenden. Wenn Sie nur eine relativ kleine Teilmenge der Millionen von Bildern auf Wikipedia und/oder Commons ziehen, sollten Sie die Wikimedia-Server direkt verwenden.

Denken Sie daran, grundlegende Höflichkeit zu üben: senden Sie eine user-agent string identifizieren Sie sich und nicht die Server zu hart treffen. Insbesondere würde ich empfehlen, die Downloads nacheinander auszuführen, so dass Sie erst dann die nächste Datei herunterladen, nachdem Sie die vorherige Datei beendet haben.Dies ist nicht nur einfacher als das parallele Herunterladen, sondern es stellt sicher, dass Sie nicht mehr als Ihren Anteil an der Bandbreite in Anspruch nehmen und die Downloadgeschwindigkeit mehr oder weniger automatisch an die Serverlast anpassen kann.

Ps. Egal, ob Sie die Dateien von einem Spiegel oder direkt von den Wikimedia-Server herunterzuladen, gehen Sie Ihre müssen, um herauszufinden, in welchem ​​Verzeichnis sie sind in typischen Wikipedia Datei-URLs wie folgt aussehen:.

http://upload.wikimedia.org/wikipedia/en/a/ab/File_name.jpg 

, wo die „wikipedia/en“ -Teil identifiziert das Wikimedia-Projekt und die Sprache (aus historischen Gründen wird Commons als "wikipedia/commons" aufgeführt) und the "a/ab" part wird durch die ersten zwei Hexadezimalziffern des MD5-Hashs des Dateinamens in UTF-8 angegeben (da sie in den Datenbank-Dumps codiert sind)).

+0

Vielen Dank! Ich bin noch nicht zum Download-Teil gekommen, aber ich wusste nicht, dass es zwei getrennte Daten-Repositories gibt. Ich importiere gerade beide, aber ein schneller 'Grep' bestätigt, dass meine fehlenden Dateien in den Commons waren. Wikipedia/Medien machen es sicher nicht leicht, dieses Zeug zu verstehen. :) –

+0

Alles läuft reibungslos, außer ich versuche herauszufinden, wie man die Bilder, die ich auswähle, durch das, was in der Public Domain ist, filtere. Ich kann diese Informationen nicht in der Tabelle 'image' oder 'page' finden. Ich denke, es ist wahrscheinlich nur in den Inhalt der Seite selbst. z.B. Siehe im Abschnitt "Lizenzierung" dieser Seite: http://en.wikipedia.org/wiki/File:Carrizo_2a.JPG Also ich lade diese Datei herunter: http://dumps.wikimedia.org/enwiki /latest/enwiki-latest-pages-articles.xml.bz2 Aber ich hoffe, eine SQL-Version für eine einfachere Handhabung zu finden. Irgendwelche Vorschläge? Und bin ich hier richtig? –

+0

Ich sollte hinzufügen, auf dieser Seite heißt es "SQL-Dateien für alle Seiten und Links sind ebenfalls verfügbar." Das gab mir den Hinweis, dass sie wahrscheinlich irgendwo existieren. –

Verwandte Themen