Antwort

12

nur als Update hat die gemeinsame Crawl corpus Download immer frei gewesen, und Sie können anstelle von S3 HTTP verwenden. In S3 können Sie anonyme Anmeldeinformationen verwenden, um auf die Daten zuzugreifen.

Wenn Sie über HTTP herunterladen, erhalten eine der Dateispeicherorte, wie zB:

Common-Crawl/Crawl-Daten/CC-MAIN-2014-23/Segmente/1404776400583,60/RWB/CC- MAIN-20140707234000-00.000-ip-10-180-212-248.ec2.internal.warc.gz

und fügen sie dann https://aws-publicdatasets.s3.amazonaws.com/ es, was den Link:

https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

um Eine Auflistung aller solcher Dateien finden Sie unter warc.paths.gz (oder das Äquivalent für W ET- oder WAT-Dateien) für die neueren Crawls oder listet die Dateien mit anonymen Anmeldeinformationen mit s3cmd oder einem ähnlichen Tool auf.

Dieser Link funktioniert und ermöglicht Ihnen das Herunterladen der Daten ohne S3 zu durchlaufen.

0

zu der gemeinsamen Crawl-Daten zugreifen, benötigen Sie einen Karten reduzieren Job gegen sie laufen, und da der Korpus auf S3 befindet, können Sie dies tun, indem ein Hadoop-Cluster ausgeführt Amazon EC2-Service. Dies beinhaltet Einrichten eines benutzerdefinierten Hadoop-Jar, die unsere benutzerdefinierte InputFormat -Klasse verwendet, um Daten aus den einzelnen ARC-Dateien in unserem S3-Bucket zu ziehen.

Quelle: http://commoncrawl.org/the-data/

Erste Schritte: http://commoncrawl.org/the-data/get-started/

+3

.... und das "freie" Etikett auswirft. –

3

Allgemeine Datenzugriff auf gemeinsame Crawl kriecht bei diskutiert: http://blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/

Was würde ich eine nützliche Art und Weise betrachten einige Versuchsdaten zu gehen über das Erhalten, ist durch den neuen Index über das Archiv mit: http://index.commoncrawl.org/CC-MAIN-2015-18

Wenn Sie beispielsweise nach "www.cwi.nl" suchen, finden Sie JSON-Strukturen zu den Segmenten, die Dateien aus dieser Domäne enthalten.

{ 
"urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
"status": "200", "url": "http://www.cwi.nl/", 
"filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
"length": "5881", "mime": "text/html", "offset": "364108412", 
"digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5" 
} 

Präfix der s3 Info, um es, und Sie können die Daten-Datei herunterladen, die Sie als Beispieldaten verwenden können: https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz

Viel Spaß!

Verwandte Themen