Ich möchte Daten aus Wikipedia für eine Aufgabe in Hadoop laden. Ich habe einige Links gefunden: http://www.kiwix.org/wiki/Main_Page#Wikipedia_files, https://archive.org/details/enwiki-20160113. Aber ich bin nicht sicher, in welchem Format es sein wird und wie man damit arbeitet. Also, Frage ist, weiß jemand, ob es möglich ist, Wikipedia in einer oder mehreren TXT-Dateien herunterzuladen?Download Wiki in einer oder mehreren Dateien
0
A
Antwort
1
Nun können Sie die neueste Download abgeschlossen (ein weiterer Dump ist im Gang bei 20.161.101) Dumps von wikipedia Inhalt hier: https://dumps.wikimedia.org/enwiki/20161020/ Hinweis Ich glaube nicht, dies schließt Medien-Dateien selbst, und dass dieses Beispiel ist nur die englische Seite - die anderen Seiten sind auch dort verfügbar.
Verwandte Themen
- 1. android Download-Dateien Problem
- 2. Download von Dateien wie mega.co.nz
- 3. Quandl download wiki EOD Aktienkurse von Python - wie?
- 4. Download-Dateien Jersey
- 5. JavaScript in mehreren Dateien
- 6. Suche nach mehreren Zeichenfolgen in mehreren Dateien
- 7. Codeigniter Force Download-Dateien
- 8. wget Download mit mehreren gleichzeitigen Verbindungen
- 9. migrieren einer Website zu WIKI
- 10. Dateien Download-Warteschlange auf PHP
- 11. .NET 3.5 Download Große Dateien
- 12. Rails Wiki-Stil Bearbeitung - Textil oder Markdown?
- 13. Erstellen einer Download-Seite in ColdFusion 8
- 14. Öffnen URI Download beschädigte Dateien
- 15. Github wiki nach Gitlab migrieren oder exportieren
- 16. Wie Dateien zum Download in Django dienen?
- 17. Django: Einen Download in einer generischen Ansicht
- 18. Ein Wiki für asp.net Mvc Wiki-Engine
- 19. Suche nach einer Referenz in mehreren DLL-Dateien
- 20. Löschen einer Zeile in mehreren Dateien in Python
- 21. Split views.py in mehreren Dateien
- 22. BitBucket Wiki: Erstellen einer Hierarchie Struktur?
- 23. Dateien auf mehreren Prozessen
- 24. Upload von mehreren Dateien
- 25. AWK (oder etwas anderes) Durchschnitt mehrerer Spalten aus mehreren Dateien
- 26. Get direkten Download-Link für gemeinsame Dateien in Telegramm
- 27. Erzwingen einer Datei zum Download
- 28. Wiki-Rendering in GWT
- 29. riesige h5-Dateien mit mehreren Datensätzen in einer mit
- 30. Commons FTPClient InputStream von mehreren Dateien in einer einzigen Verbindung