Ich muss eine Teilmenge des allgemeinen öffentlichen Datensatzes von crawl durchsuchen und herunterladen. This Seite erwähnt, wo die Daten gehostet werden.
Wie kann ich die allgemeinen Crawling-Daten durchsuchen und möglicherweise herunterladen, die unter s3: // aws-publicdatasets/common-crawl/crawl-002/gehostet werden?Greifen Sie auf einen allgemeinen Crawl-AWS-öffentlichen Datensatz zu
Antwort
nur als Update hat die gemeinsame Crawl corpus Download immer frei gewesen, und Sie können anstelle von S3 HTTP verwenden. In S3 können Sie anonyme Anmeldeinformationen verwenden, um auf die Daten zuzugreifen.
Wenn Sie über HTTP herunterladen, erhalten eine der Dateispeicherorte, wie zB:
Common-Crawl/Crawl-Daten/CC-MAIN-2014-23/Segmente/1404776400583,60/RWB/CC- MAIN-20140707234000-00.000-ip-10-180-212-248.ec2.internal.warc.gz
und fügen sie dann https://aws-publicdatasets.s3.amazonaws.com/ es, was den Link:
um Eine Auflistung aller solcher Dateien finden Sie unter warc.paths.gz (oder das Äquivalent für W ET- oder WAT-Dateien) für die neueren Crawls oder listet die Dateien mit anonymen Anmeldeinformationen mit s3cmd oder einem ähnlichen Tool auf.
Dieser Link funktioniert und ermöglicht Ihnen das Herunterladen der Daten ohne S3 zu durchlaufen.
zu der gemeinsamen Crawl-Daten zugreifen, benötigen Sie einen Karten reduzieren Job gegen sie laufen, und da der Korpus auf S3 befindet, können Sie dies tun, indem ein Hadoop-Cluster ausgeführt Amazon EC2-Service. Dies beinhaltet Einrichten eines benutzerdefinierten Hadoop-Jar, die unsere benutzerdefinierte InputFormat -Klasse verwendet, um Daten aus den einzelnen ARC-Dateien in unserem S3-Bucket zu ziehen.
Quelle: http://commoncrawl.org/the-data/
Erste Schritte: http://commoncrawl.org/the-data/get-started/
Allgemeine Datenzugriff auf gemeinsame Crawl kriecht bei diskutiert: http://blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/
Was würde ich eine nützliche Art und Weise betrachten einige Versuchsdaten zu gehen über das Erhalten, ist durch den neuen Index über das Archiv mit: http://index.commoncrawl.org/CC-MAIN-2015-18
Wenn Sie beispielsweise nach "www.cwi.nl" suchen, finden Sie JSON-Strukturen zu den Segmenten, die Dateien aus dieser Domäne enthalten.
{
"urlkey": "nl,cwi)/", "timestamp": "20150505031358",
"status": "200", "url": "http://www.cwi.nl/",
"filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz",
"length": "5881", "mime": "text/html", "offset": "364108412",
"digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5"
}
Präfix der s3 Info, um es, und Sie können die Daten-Datei herunterladen, die Sie als Beispieldaten verwenden können: https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz
Viel Spaß!
- 1. So greifen Sie über die Powershell auf einen Webdienst zu?
- 2. Wie man einen Datensatz aus einem allgemeinen Wörterbuch extrahiert?
- 3. Greifen Sie auf Djangos field.choices zu
- 4. So definieren Sie einen allgemeinen Mitgliedsfunktionszeiger
- 5. C# Erstellen Sie einen allgemeinen Methodenparameter
- 6. Greifen Sie programmatisch auf alle neuen Chrome-Benachrichtigungen zu
- 7. Wie greifen Sie auf den aktuellen Benutzereintrag im Adressbuch zu?
- 8. Casperjs greifen auf einen Frame innerhalb eines Frames zu
- 9. Wie greifen Sie auf Hardwaredekodierung auf tvOS ohne VideoToolbox zu?
- 10. So greifen Sie auf MySQL-Daten auf Amazon EBS zu
- 11. Wie greifen Sie auf exportierte Funktionen von einander zu?
- 12. Wie greifen Sie auf den Inhalt eines ASP.NET-Steuerelements zu?
- 13. So greifen Sie auf das Stammverzeichnis der Subdomäne zu
- 14. So greifen Sie auf die JavaScript-Rechtschreibprüfung in JavaScript zu
- 15. Greifen Sie auf View-Source anstelle von vorbereiteten DOM zu
- 16. Wie greifen Sie auf Genstrings in Xcode zu?
- 17. Greifen Sie in Python auf JSON-Daten zu
- 18. So greifen Sie über einen Browser auf Geräte auf einem Client-PC zu
- 19. Wie greifen Sie auf Eigenschaften der Basisklasse in Typescript zu?
- 20. Wie greifen Sie auf In-Memory-Services von Webanwendungen zu?
- 21. So greifen Sie auf die Android Annotation sharedPreference zu?
- 22. Greifen Sie auf hochgeladenes Bild in Sails.js Backend-Projekt zu
- 23. Symfony - So greifen Sie auf das Repository der Entität zu
- 24. Greifen Sie auf HTTP-Antwortheader für das flash.net.URLLoader-Objekt zu?
- 25. So greifen Sie auf die Sitzungsvariable in der Steuerung zu
- 26. Wie greifen Sie auf Trackpad-Gesten in Delphi-Berlin zu?
- 27. XML: Greifen Sie auf verschachtelte Elemente mit demselben Namen zu
- 28. Greifen Sie auf XML-Attribut in JSP zu
- 29. Wie greifen Sie auf die Bildnummer in AVAsynchronousCIImageFilteringRequest zu?
- 30. PHP - Greifen Sie nur auf meine Website zu
.... und das "freie" Etikett auswirft. –