Google bigquery BigQuery表提取的行是否可以随机化_Google Bigquery_Google Cloud Platform

Google bigquery BigQuery表提取的行是否可以随机化

google-bigquery google-cloud-platform

Google bigquery BigQuery表提取的行是否可以随机化,google-bigquery,google-cloud-platform,Google Bigquery,Google Cloud Platform,我目前正在将一个BigQuery表提取到Google云存储中的sharded.csv中——有没有办法对提取的行进行洗牌/随机化？GCS.csv将用作GCMLE模型的训练数据，当前的输出以非随机顺序排列，因为它们由类似的“标签”聚集在一起这会在培训GCMLE模型时产生问题，因为您必须将每个批次中所有标签的随机示例交给模型。虽然GCMLE/TF能够随机化单个.csv中的行顺序，但据我所知，没有任何方法可以随机化多个.csv中选定的行。因此，我正在寻找一种方法来确保输出到.csv的行确实是随机的 B

我目前正在将一个BigQuery表提取到Google云存储中的sharded.csv中——有没有办法对提取的行进行洗牌/随机化？GCS.csv将用作GCMLE模型的训练数据，当前的输出以非随机顺序排列，因为它们由类似的“标签”聚集在一起

这会在培训GCMLE模型时产生问题，因为您必须将每个批次中所有标签的随机示例交给模型。虽然GCMLE/TF能够随机化单个.csv中的行顺序，但据我所知，没有任何方法可以随机化多个.csv中选定的行。因此，我正在寻找一种方法来确保输出到.csv的行确实是随机的

BigQuery表提取的行是否可以随机化

不。（因此，任何建立在它之上的客户机）都不允许您这样做

我正在寻找一种方法来确保输出到.csv的行确实是随机的

您应该首先创建与csv文件对应的表，然后将它们逐个提取到单独的csv文件中。在这种情况下，您可以控制进入csv的内容

若您关心的是处理成本（您需要扫描表的次数与您需要的csv文件的次数相同），那个么您可以在中检查分区方法。这仍然涉及成本，但大大降低了成本

最后，零成本选项是在整个csv文件中分发响应的同时使用API进行分页-您可以在自己选择的情况下轻松完成此操作

您无法控制如何从BigQuery导出数据。我首先会问你为什么要这么做？你想解决的问题是什么我问了这两个问题，但我相信它们是不同的问题。第一个问题更广泛地围绕着数据流管道，而这个问题询问BigQuery中的功能（在另一个问题中可能有用），而不是在其他人对BigQuery提出类似问题时，让问题（和答案）在评论中消失