Ich habe einen Streaming-Schritt in AWS/EMR mit einem Mapper und Reducer in Python geschrieben, um einige der Archive in Common Crawl für Sentiment-Analyse zuzuordnen.Mapping einer Reihe von warc.gz-Dateien, EMR
Ich gehe vom älteren Common-Crawl-TextData-Format in das neuere Warc.gz-Format und ich muss wissen, wie ich gehen könnte, eine Reihe von Warc.gz-Dateien für meine EMR-Eingabe anzugeben.
Zum Beispiel:
Im älteren Format könnte ich einen Eingangsbereich von textdata-Dateien als solche angegeben werden:
s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690165636/textData-000[0-9][0-9]
aber das neue Format sieht wie folgt aus:
erste Datei:
s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00000-ip-10-236-182-209.ec2.internal.warc.gz
zweite Datei:
s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00001-ip-10-236-182-209.ec2.internal.warc.gz
Wie würde ich angeben, um einen Bereich dieser Warc.gz-Dateien zuzuordnen?
Können Sie nicht die gleiche Methode verwenden, die Sie zuvor verwendeten? –
Das ist was ich frage - wie gebe ich den Dateibereich an? Für Textdatendateien ist der numerische Bereich einfach, da die Dateien nummeriert sind, aber die warc.gz-Dateien sind innerhalb jedes Dateinamens nummeriert und nicht am Ende wie textData-Dateien. Schau dir die 00000 und 00001 in den beiden Warc.ga-Beispielen oben an. Wie kann der Schritt ausgeführt werden? – DataGuy