Ich möchte eine große Anzahl von Dateien in Hadoop verarbeiten - jede Datei enthält einige Header-Informationen, gefolgt von vielen Datensätzen, die jeweils in einer festen Anzahl von Bytes gespeichert sind. Irgendwelche Vorschläge dazu?Verarbeitung von Dateien mit Kopfzeilen in Hadoop
Antwort
Ich denke, die beste Lösung ist eine benutzerdefinierte InputFormat
schreiben.
Zusätzlich zu einem benutzerdefinierten FileInputFormat müssen Sie auch sicherstellen, dass die Datei nicht splitfähig ist, damit der Leser weiß, wie die Datensätze in der Datei verarbeitet werden.
Es gibt eine Lösung, Sie können den Offset der Zeile der Dateien überprüfen, die der Mapper liest. Es wird Null für die erste Zeile in der Datei sein. so können Sie Linie in der Karte wie folgt hinzufügen:
public void Karte (LongWritable Schlüssel, Text Wert, Kontext Context) throws IOException, InterruptedException {
if(key.get() > 0)
{
your mapper code
}
}
So wird es die erste Zeile der überspringen Datei.
Es ist jedoch kein guter Weg, weil auf diese Weise diese Bedingung für jede Zeile in der Datei überprüft wird.
Am besten verwenden Sie Ihr benutzerdefiniertes Eingabeformat
- 1. Lese JSON-Dateien von Hadoop mit Funken
- 2. Hadoop beim Umbenennen von Dateien
- 3. Verarbeitung einer Liste von Dateien in SLURM
- 4. Gegenseitige Wörter in Dateien mit hadoop mapreduce
- 5. Verarbeitung von Org-Modus-Dateien in Python
- 6. Entpacken von .Snappy-Dateien in Hadoop HDFS?
- 7. Mehrere Dateien in Hadoop zusammenführen
- 8. Tab-Dateien in Pandas Datenrahmen nach Spalten mit fehlenden Kopfzeilen
- 9. Verarbeitung von CSV-Dateien mit Zeilenumbrüchen in Feldern - node.js
- 10. Hadoop Slave-Dateien Konfiguration
- 11. Hadoop für JSON-Dateien
- 12. Löschen von Dateien nach partitionierten Schritt Verarbeitung
- 13. Rendern von Daten in Kopfzeilen mit RoR
- 14. Wie die vorhandenen Dateien mit hadoop fs
- 15. Ändern der Blockgröße vorhandener Dateien in Hadoop
- 16. window.open mit Kopfzeilen
- 17. Effiziente Verarbeitung sequentieller Dateien C#
- 18. Grep über mehrere Dateien in Hadoop-Dateisystem
- 19. Sinatra Streaming-Antwort mit Kopfzeilen
- 20. Zugriff auf Dateien in Hadoop HDFS?
- 21. Verarbeitung mehrerer Dateien in SPARK separat
- 22. Wie Kopfzeilen nur bestimmten Dateien mit Nginx hinzufügen
- 23. Wie werden Dateien in Hadoop automatisch komprimiert?
- 24. Verschieben von Dateien in einem Hadoop-Dateisystem (Linux)
- 25. Hadoop: Lesen von ORC-Dateien und Einfügen in RDBMS?
- 26. Hadoop distcp mit Dateiliste
- 27. PHP Redirect mit benutzerdefinierten Kopfzeilen
- 28. Wie Umbenennen einer großen Menge von Dateien in Hadoop/Spark?
- 29. Sonderzeichen in XML-Dateien - Verarbeitung mit der DOM-API
- 30. Verwenden Sie Listenansicht mit Kopfzeilen in einem Layout mit Rändern