如何在Google BigQuery中查询github文件大小?

如何在Google BigQuery中查询github文件大小?,github,google-bigquery,Github,Google Bigquery,我需要获取github开源存储库中文件的大小统计信息。 例如,小于1M的文件数为XXX或总文件数的70% 我发现[bigquery public data.github\u repos.contents]中的文件都少于1M(尽管我不知道为什么)。所以我决定选择[githubarchive:month.202005]或其他月份 但是我在[githubarchive:month.202005]中找不到“file size”字段。所以我想问一下如何在[githubarchive:month.20200

我需要获取github开源存储库中文件的大小统计信息。 例如,小于1M的文件数为XXX或总文件数的70%

我发现[bigquery public data.github\u repos.contents]中的文件都少于1M(尽管我不知道为什么)。所以我决定选择[githubarchive:month.202005]或其他月份

但是我在[githubarchive:month.202005]中找不到“file size”字段。所以我想问一下如何在[githubarchive:month.202005]中查询文件的大小?然后我可以使用中的方法按大小获得结果


我不熟悉bigquery,这个问题可能很傻。但我真的需要一个解决方案。或者有我可以引用的统计数据或文献,其中包含github上文件的大小统计数据。[bigquery public data.github_repos.contents]没有提到为什么只选择了小于1M的文件。

我猜您的解释是错误的,因为
bigquery public data.github_repos.content
public表在
content
列中保存了头分支上1 MiB下项目的文本文件数据,对于其他人,您只会发现
null
值:

SELECT id,size,content  FROM `bigquery-public-data.github_repos.contents` where size > 1048576 LIMIT 100

因此,如果我正确理解您的观点,您在这种情况下不限于分析文件库存。

非常感谢!我的理解是,只有小于1MB的文件才会在[bigquery public data.github\u repos.contents]中保存其“内容”。尽管其他文件的“content”值为“null”,但它们在表中仍然包含“id”和“size”等信息。是吗?是的,对于大于1MB的文件,您仍然可以获取
id
size
列。如果你决定我的答案帮助你的研究,然后考虑行动,以最终确定问题,并支持其他撰稿人。