2016-06-10 6 views
0

Ich möchte alle Unternehmen aus der Freebase dump extrahieren. Mehrere Instanzen scheinen jedoch im Speicherauszug zu fehlen.Freebase: Instanzen fehlen in Dump

Zum Beispiel scheint Volkswagen (/m/07ywl) nicht enthalten sein. Ich suchte nach der MID der folgenden regex konnte aber keine Ergebnisse finden:

zgrep 'rdf\.freebase\.com/ns/m\.07ywl>' freebase-rdf.gz > res.rdf 

Die MID sollten gültig sein, da sie auf den entsprechenden Wikidata page angegeben und ist das Top-Ergebnis für Volkswagen, wenn für sie die Suche im Wissen mit graph API:

https://kgsearch.googleapis.com/v1/entities:search?query=volkswagen&key=<API-KEY>&limit=5&indent=True 

Antwort

0

das Unternehmen in freebase-rdf-2015-04-19-00-00.gz existiert, also würde ich ziemlich überrascht, wenn es nicht in der letzten Dump von ein paar Monate später (2015.08.09) vorhanden waren, da die Datenbank war Schreib Für alle außer einigen Google-Admins gesperrt.

Meine erste Schätzung wäre, dass Sie einen abgeschnittenen oder beschädigten Download haben. Haben Sie nach dem Download die Länge und die MD5-Prüfsumme überprüft?

+0

Entschuldigung für den späten Follow-up. Kannst du mir zeigen, wie du nach der Entität gesucht hast? Ich habe 'zgrep '07ywl' auf dem' freebase-rdf-2015-04-19-00-00.gz' Dump versucht und keine Ergebnisse gefunden. – fwind

+0

'$ time zgrep '07ywl' freie Base-rdf-2015-04-19-00-00.gz> vw-07ywl.txt echte \t 86m51.942s Benutzer \t 84m33.558s sys \t 0m39.977s $ wc -l vw-0 * 1344 vw-07ywl.txt' Haben Sie nach dem Herunterladen die Länge und die Prüfsumme überprüft? –

+0

Sie veröffentlichen keine Prüfsummen. Allerdings sieht die Größe des Archivs gut aus und ich habe getestet, dass die Komprimierung mit 'gunzip -t' nicht korrupt ist. – fwind