Ich habe Daten aus gewöhnlichem crawl gecrawlt und ich möchte herausfinden, url entsprechend jedem der Datensätze.kann keine URL von einer Warc-Datei finden, die von Common Crawling gecrawlt wurde
for record in files:
print record['WARC-Target-URI']
Dies gibt eine leere Liste aus. Ich beziehe mich auf den folgenden Link https://dmorgan.info/posts/common-crawl-python/. Erhalten wir Ziel-URI für jeden Datensatz oder nur ein Ziel-URI für einen Warc-Dateipfad?
Es ist schwer zu verstehen, was der Grund, ohne detaillierte Protokolle sein könnte. –
Haben Sie die Beispiele aus [dmorgan.info] (https://dmorgan.info/posts/common-crawl-python/) aktualisiert, sodass URLs und Pfade auf den korrekten Datenspeicherort zeigen. Die Daten wurden letztes Jahr in den Bucket verschoben s3: // commoncrawl/(vgl. [CC group] (https://groups.google.com/d/topic/common-crawl/nKuQK68rebo/discussion)): 1. Entfernen Sie das Pfadpräfix 'common-crawl /' 2. Ändern Sie den Host in URLs in 'commoncrawl.s3.amazonaws.com'. 'https: // aws-publicdatasets.s3.amazonaws.com/common-crawl /' wird 'https: // commoncrawl.s3.amazonaws.com /' –
ja, ich habe die Pfade entsprechend und ich kann die sehen Wert von record.payload.read() aber Datensatz ['WARC-Target-URI'] gibt nichts zurück. So ist der Fall mit record ['Content-Language'] –