Fehlende Daten in Github Archive auf Big Query?Fehlende Daten in Github Archive auf Big Query?
Mit BigQuery's tables from the Github Archive und eine Abfrage auf Pull-Anforderungen für die typelevel/cats repo läuft, gibt es keine Einträge vor 2016.01.01, trotz der tatsächlichen Aktivität Repo zeigt in 2015.01.28 beginnen.
Link to github repo showing earlier pull requests
Query ist unten. Wollte das überprüfen, um zu sehen, ob es mein Fehler oder Missverständnis war, oder ob es vielleicht einige Repos gab, die nur teilweise in den BQ-Tabellen verfügbar waren.
SELECT
DATE(created_at) AS date, repo.name, count(*) AS num_PR
FROM
(TABLE_DATE_RANGE([githubarchive:day.],
TIMESTAMP('2014-09-26'),
TIMESTAMP('2016-09-26')
))
WHERE
type = 'PullRequestEvent'
AND JSON_EXTRACT(payload, '$.action') = '\"opened\"'
AND repo.name IN ('typelevel/cats')
GROUP BY date, repo.name
ORDER BY date DESC
Perfect. Ich habe das Problem in einigen anderen Bereichen bemerkt und erwarte, dass es in allen Fällen auf einen Repo-Namenswechsel zurückzuführen ist. Wird bei Repo-Nummer bleiben. Vielen Dank für die schnelle Antwort. – anjarp