zgrep in Hadoop Streaming

ich auf S3/aws eine Zip-Datei grep bin versucht & schreiben die Ausgabe an einen neuen Standort mit demselben Dateinamenzgrep in Hadoop Streaming

ich unten auf s3 verwenden, dann ist dies der richtige Weg, das schreiben Streaming-Ausgabe vom ersten CAT-Befehl zur hdfs-Ausgabe?

hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/test_20170303-000000.tar.gz

Quelle

2017-03-06 rkj

Da Sie mit hadoop spielen, warum Sie den Code in Cluster nicht ausgeführt? Das Suchen nach Zeichenfolgen in einer .gzip-Datei ist üblich, obwohl ich keine .tar-Dateien kenne.
Ich würde persönlich die -copyToLocal und -copyFromLocal Befehle verwenden, um es auf den lokalen FS kopieren und dort arbeiten. Das Problem mit Dingen wie -cat ist, dass eine Menge auf dem Hadoop-Client-Code abgemeldet wird, so dass eine Pipe wahrscheinlich zu viele überflüssige Cruft abfängt,

Quelle

2017-03-09 13:33:14

zgrep in Hadoop Streaming

Antwort

Verwandte Themen