2016-09-30 2 views
0

Fehlende Daten in Github Archive auf Big Query?Fehlende Daten in Github Archive auf Big Query?

Mit BigQuery's tables from the Github Archive und eine Abfrage auf Pull-Anforderungen für die typelevel/cats repo läuft, gibt es keine Einträge vor 2016.01.01, trotz der tatsächlichen Aktivität Repo zeigt in 2015.01.28 beginnen.

Link to github repo showing earlier pull requests

Query ist unten. Wollte das überprüfen, um zu sehen, ob es mein Fehler oder Missverständnis war, oder ob es vielleicht einige Repos gab, die nur teilweise in den BQ-Tabellen verfügbar waren.

SELECT 
    DATE(created_at) AS date, repo.name, count(*) AS num_PR 
FROM 
    (TABLE_DATE_RANGE([githubarchive:day.], 
    TIMESTAMP('2014-09-26'), 
    TIMESTAMP('2016-09-26') 
)) 
WHERE 
    type = 'PullRequestEvent' 
    AND JSON_EXTRACT(payload, '$.action') = '\"opened\"' 
    AND repo.name IN ('typelevel/cats') 
GROUP BY date, repo.name 
ORDER BY date DESC 

Antwort

1

Das Repo-Namen geändert, obwohl die ID gleich weiter:

SELECT repo.name, MIN(created_at) since, MAX(created_at) until 
FROM (TABLE_DATE_RANGE([githubarchive:day.], 
     TIMESTAMP('2015-01-01'), 
     TIMESTAMP('2016-10-01') 
    )) 
WHERE repo.id = 29986727 
GROUP BY 1 
ORDER BY 1 


repo_name  since     until  
non/cats  2015-01-28 20:26:49  2016-01-30 20:30:41  
typelevel/cats 2016-01-30 20:32:30  2016-09-30 16:47:03  
+0

Perfect. Ich habe das Problem in einigen anderen Bereichen bemerkt und erwarte, dass es in allen Fällen auf einen Repo-Namenswechsel zurückzuführen ist. Wird bei Repo-Nummer bleiben. Vielen Dank für die schnelle Antwort. – anjarp

Verwandte Themen