2016-07-07 4 views
1

Ich habe einen Streaming-Schritt in AWS/EMR mit einem Mapper und Reducer in Python geschrieben, um einige der Archive in Common Crawl für Sentiment-Analyse zuzuordnen.Mapping einer Reihe von warc.gz-Dateien, EMR

Ich gehe vom älteren Common-Crawl-TextData-Format in das neuere Warc.gz-Format und ich muss wissen, wie ich gehen könnte, eine Reihe von Warc.gz-Dateien für meine EMR-Eingabe anzugeben.

Zum Beispiel:

Im älteren Format könnte ich einen Eingangsbereich von textdata-Dateien als solche angegeben werden:

s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690165636/textData-000[0-9][0-9] 

aber das neue Format sieht wie folgt aus:

erste Datei:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00000-ip-10-236-182-209.ec2.internal.warc.gz 

zweite Datei:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00001-ip-10-236-182-209.ec2.internal.warc.gz 

Wie würde ich angeben, um einen Bereich dieser Warc.gz-Dateien zuzuordnen?

+0

Können Sie nicht die gleiche Methode verwenden, die Sie zuvor verwendeten? –

+0

Das ist was ich frage - wie gebe ich den Dateibereich an? Für Textdatendateien ist der numerische Bereich einfach, da die Dateien nummeriert sind, aber die warc.gz-Dateien sind innerhalb jedes Dateinamens nummeriert und nicht am Ende wie textData-Dateien. Schau dir die 00000 und 00001 in den beiden Warc.ga-Beispielen oben an. Wie kann der Schritt ausgeführt werden? – DataGuy

Antwort

0

Ich bin mir ziemlich sicher, dass Sie die gleiche Methode verwenden können, die Sie zuvor verwendet haben. Um nur die beiden Dateien lesen Sie verwenden würden:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-0000[0-1]-ip-10-236-182-209.ec2.internal.warc.gz

Auch da diese Wege sind reicher als die vorherigen Sie zusätzliche Möglichkeiten, um Sätze von Daten angeben, zu verarbeiten.

CC-MAIN-2016-07 is CC-MAIN-YYYY-ww - Möglichkeit zur Angabe einer Reihe von Jahren oder Wochen zur Verarbeitung.

CC-MAIN-20160205195359 is CC-MAIN-YYYYMMDDHHmmss - Sie können einen Datums- oder Zeitbereich auswählen.

0

Sie können die Liste der RWB-Datei 2016 Juli Download über

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/warc.paths.gz 
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wat.paths.gz 
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wet.paths.gz 

für in der Datei über s3

commoncrawl.s3.amazonaws.com/ 

in Ihrem Fall den Zugriff erwähnt über Browser befestigen diese auf den Pfad zugreifen versuchen, das an den Pfad anzufügen

s3://commoncrawl/