kann keine URL von einer Warc-Datei finden, die von Common Crawling gecrawlt wurde

Ich habe Daten aus gewöhnlichem crawl gecrawlt und ich möchte herausfinden, url entsprechend jedem der Datensätze.kann keine URL von einer Warc-Datei finden, die von Common Crawling gecrawlt wurde

for record in files: 
    print record['WARC-Target-URI']

Dies gibt eine leere Liste aus. Ich beziehe mich auf den folgenden Link https://dmorgan.info/posts/common-crawl-python/. Erhalten wir Ziel-URI für jeden Datensatz oder nur ein Ziel-URI für einen Warc-Dateipfad?

Quelle

2017-07-17 Ravi Ranjan

Es ist schwer zu verstehen, was der Grund, ohne detaillierte Protokolle sein könnte. –

Haben Sie die Beispiele aus [dmorgan.info] (https://dmorgan.info/posts/common-crawl-python/) aktualisiert, sodass URLs und Pfade auf den korrekten Datenspeicherort zeigen. Die Daten wurden letztes Jahr in den Bucket verschoben s3: // commoncrawl/(vgl. [CC group] (https://groups.google.com/d/topic/common-crawl/nKuQK68rebo/discussion)): 1. Entfernen Sie das Pfadpräfix 'common-crawl /' 2. Ändern Sie den Host in URLs in 'commoncrawl.s3.amazonaws.com'. 'https: // aws-publicdatasets.s3.amazonaws.com/common-crawl /' wird 'https: // commoncrawl.s3.amazonaws.com /' –

ja, ich habe die Pfade entsprechend und ich kann die sehen Wert von record.payload.read() aber Datensatz ['WARC-Target-URI'] gibt nichts zurück. So ist der Fall mit record ['Content-Language'] –

Die Informationen, die Sie suchen, sind Teil der Kopfzeile. Versuchen:

print record.header['WARC-Target-URI']

Quelle

2017-07-18 12:37:26

kann keine URL von einer Warc-Datei finden, die von Common Crawling gecrawlt wurde

Antwort

Verwandte Themen