Obwohl ich Hadoop häufig auf meinem Ubuntu-Rechner benutze, habe ich nie über SUCCESS
und part-r-00000
Dateien nachgedacht. Die Ausgabe befindet sich immer in part-r-00000
Datei, aber was ist die Verwendung von SUCCESS
Datei? Warum hat die Ausgabedatei den Namen part-r-0000
? Gibt es irgendeine Bedeutung/irgendeine Nomenklatur oder ist das nur zufällig definiert?Was sind SUCCESS und part-r-00000 Dateien in hadoop
Antwort
http://www.cloudera.com/blog/2010/08/what%E2%80%99s-new-in-apache-hadoop-0-21/
Auf dem erfolgreichen Abschluss eines Auftrags Siehe, erstellt die MapReduce-Laufzeit eine _SUCCESS Datei im Ausgabeverzeichnis. Dies kann für Anwendungen nützlich sein, die sehen müssen, ob eine Ergebnismenge vollständig ist, indem Sie HDFS untersuchen. (MapReduce-947)
Dies würde in der Regel durch Job-Scheduling-Systeme (wie Oozie) verwendet werden, um anzuzeigen, dass Folgeverarbeitung auf dem Inhalt dieses Verzeichnisses kann beginnen, da alle Daten ausgegeben worden sind.
aktualisieren (als Antwort auf Kommentar)
Die Ausgabedateien standardmäßig Teil-x-yyyyy genannt werden, in denen:
x
ist entweder 'm' oder 'r', je nachdem, ob der Job war eine Karte nur Job, oder reduzierenyyyyy
der Mapper oder Minderer Task-Nummer (Null basierend)
Ein Job, der 32 Reduzierstücke hat, wird also Dateien mit dem Namen part-r-00000 nach part-r-00031 haben, eines für jede Reduzierertask.
- 1. Was sind FTL-Dateien?
- 2. Was sind .axf-Dateien?
- 3. Was sind NDF-Dateien?
- 4. Was sind ". ~ Bpl" Dateien?
- 5. Hadoop-Profilausgabe - wo und was?
- 6. Was sind dpuf (Erweiterung) Dateien?
- 7. Was sind .tpl.html Dateien? (AngularJS)
- 8. Mehrere Dateien in Hadoop zusammenführen
- 9. Hadoop Slave-Dateien Konfiguration
- 10. Was sind `rc` Dateien in Nodejs?
- 11. Was sind IMI-Dateien in Android Studio?
- 12. Was sind .a-Dateien in Go?
- 13. Hadoop für JSON-Dateien
- 14. Was bedeutet solrcloud auf hadoop?
- 15. Ändern der Blockgröße vorhandener Dateien in Hadoop
- 16. Entpacken von .Snappy-Dateien in Hadoop HDFS?
- 17. Verarbeitung von Dateien mit Kopfzeilen in Hadoop
- 18. was der Ersatz für hadoop Job als veraltet Klasse sind
- 19. Wie werden Dateien in Hadoop automatisch komprimiert?
- 20. Gegenseitige Wörter in Dateien mit hadoop mapreduce
- 21. Job- und Aufgabenplanung in Hadoop
- 22. Was sind '!' und '?' in Swift
- 23. Wie vermeidet man das Erzeugen von CRC-Dateien und SUCCESS-Dateien beim Speichern eines DataFrames?
- 24. Was sind die Dateien Web.Debug.config und Web.Release.Config für?
- 25. Was sind die Unterschiede zwischen Sort Comparator und Group Comparator in Hadoop?
- 26. Was sind die FSharp.Core.optdata und FSharp.Core.sigdata Dateien von F #?
- 27. maven-failsafe-plugin Fehler und BUILD SUCCESS?
- 28. Was sind VSSVER.SCC-Dateien, und kann ich sie löschen?
- 29. Config-Hadoop-Dateien (Ein-Knoten-Cluster)
- 30. Hadoop: Lesen von ORC-Dateien und Einfügen in RDBMS?
Das erklärt nicht, warum die Ausgabedatei 'part-r-00000' genannt wird, oder ob dies auch immer notwendigerweise der Fall ist. –
Aktualisiert, um @KyleStrand-Kommentar speziell zu adressieren –
Beachten Sie: Derzeit ('hadoop-streaming-2.4.0.2.1.1.0') gibt es kein' x', wenn Sie hadoop-streaming verwenden. Also wird es wie 'part-00000'. – masu