Greifen Sie auf einen allgemeinen Crawl-AWS-öffentlichen Datensatz zu

Ich muss eine Teilmenge des allgemeinen öffentlichen Datensatzes von crawl durchsuchen und herunterladen. This Seite erwähnt, wo die Daten gehostet werden.
Wie kann ich die allgemeinen Crawling-Daten durchsuchen und möglicherweise herunterladen, die unter s3: // aws-publicdatasets/common-crawl/crawl-002/gehostet werden?Greifen Sie auf einen allgemeinen Crawl-AWS-öffentlichen Datensatz zu

Quelle

2013-05-20 gibraltar

nur als Update hat die gemeinsame Crawl corpus Download immer frei gewesen, und Sie können anstelle von S3 HTTP verwenden. In S3 können Sie anonyme Anmeldeinformationen verwenden, um auf die Daten zuzugreifen.

Wenn Sie über HTTP herunterladen, erhalten eine der Dateispeicherorte, wie zB:

Common-Crawl/Crawl-Daten/CC-MAIN-2014-23/Segmente/1404776400583,60/RWB/CC- MAIN-20140707234000-00.000-ip-10-180-212-248.ec2.internal.warc.gz

und fügen sie dann https://aws-publicdatasets.s3.amazonaws.com/ es, was den Link:

https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

um Eine Auflistung aller solcher Dateien finden Sie unter warc.paths.gz (oder das Äquivalent für W ET- oder WAT-Dateien) für die neueren Crawls oder listet die Dateien mit anonymen Anmeldeinformationen mit s3cmd oder einem ähnlichen Tool auf.

Dieser Link funktioniert und ermöglicht Ihnen das Herunterladen der Daten ohne S3 zu durchlaufen.

Quelle

2014-08-13 23:44:29 Smerity

zu der gemeinsamen Crawl-Daten zugreifen, benötigen Sie einen Karten reduzieren Job gegen sie laufen, und da der Korpus auf S3 befindet, können Sie dies tun, indem ein Hadoop-Cluster ausgeführt Amazon EC2-Service. Dies beinhaltet Einrichten eines benutzerdefinierten Hadoop-Jar, die unsere benutzerdefinierte InputFormat -Klasse verwendet, um Daten aus den einzelnen ARC-Dateien in unserem S3-Bucket zu ziehen.

Quelle: http://commoncrawl.org/the-data/

Erste Schritte: http://commoncrawl.org/the-data/get-started/

Quelle

2013-05-20 15:33:54

.... und das "freie" Etikett auswirft. –

Allgemeine Datenzugriff auf gemeinsame Crawl kriecht bei diskutiert: http://blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/

Was würde ich eine nützliche Art und Weise betrachten einige Versuchsdaten zu gehen über das Erhalten, ist durch den neuen Index über das Archiv mit: http://index.commoncrawl.org/CC-MAIN-2015-18

Wenn Sie beispielsweise nach "www.cwi.nl" suchen, finden Sie JSON-Strukturen zu den Segmenten, die Dateien aus dieser Domäne enthalten.

{ 
"urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
"status": "200", "url": "http://www.cwi.nl/", 
"filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
"length": "5881", "mime": "text/html", "offset": "364108412", 
"digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5" 
}

Präfix der s3 Info, um es, und Sie können die Daten-Datei herunterladen, die Sie als Beispieldaten verwenden können: https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz

Viel Spaß!

Quelle

2015-06-16 09:59:00

Greifen Sie auf einen allgemeinen Crawl-AWS-öffentlichen Datensatz zu

Antwort

Verwandte Themen