2016-05-26 5 views
0

Ich versuche Warc-Dateien von AWS Common Crawl über HTTPS, die funktionierte, aber aus irgendeinem Grund, wenn ich vor kurzem versucht habe, bekomme ich immer the specified key does not exist Fehler.Common Crawling-Fehler "der angegebene Schlüssel existiert nicht"

Wenn ich den Index für eine bestimmte URL teste ich bekomme eine Antwort, aber wenn ich versuche, den Warc für jeden Datensatz herunterzuladen, erhalte ich den Fehler.

hier ist der Index url http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=fivethirtyeight.com&matchType=domain&output=json zu testen, die viele Datensätze zeigt, die formatiert sind wie folgt: {"urlkey": "com,fivethirtyeight)/", "timestamp": "20150228172316", "url": "http://fivethirtyeight.com/", "length": "17426", "filename": "crawl-data/CC-MAIN-2015-11/segments/1424936462009.45/warc/CC-MAIN-20150226074102-00094-ip-10-28-5-156.ec2.internal.warc.gz", "digest": "FXI6SYLZSAFRSUOIKOZ6XVMQW2NHHLZK", "offset": "96230370"}

Dies ist die URL ich die RWB für die Aufzeichnung zu verwenden bin versucht, zum Download: https://aws-publicdatasets.s3.amazonaws.com/crawl-data/CC-MAIN-2015-11/segments/1424936462009.45/warc/CC-MAIN-20150226074102-00094-ip-10-28-5-156.ec2.internal.warc.gz

vermisse ich etwas wirklich offensichtlich?

Antwort

1

Basierend auf this ...

Verfügbar unter: s3: // aws-publicdatasets/common-Crawl/

... es sieht aus wie ein Pfad-Präfix fehlen von /common-crawl, so würde ich vorschlagen, dass die richtige URL https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-11/...

+0

wäre, so dass es etwas ziemlich offensichtlich war. Danke für die Hilfe! – user2338089

Verwandte Themen