Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google bigquery BigQuery表提取的行是否可以随机化_Google Bigquery_Google Cloud Platform - Fatal编程技术网

Google bigquery BigQuery表提取的行是否可以随机化

Google bigquery BigQuery表提取的行是否可以随机化,google-bigquery,google-cloud-platform,Google Bigquery,Google Cloud Platform,我目前正在将一个BigQuery表提取到Google云存储中的sharded.csv中——有没有办法对提取的行进行洗牌/随机化?GCS.csv将用作GCMLE模型的训练数据,当前的输出以非随机顺序排列,因为它们由类似的“标签”聚集在一起 这会在培训GCMLE模型时产生问题,因为您必须将每个批次中所有标签的随机示例交给模型。虽然GCMLE/TF能够随机化单个.csv中的行顺序,但据我所知,没有任何方法可以随机化多个.csv中选定的行。因此,我正在寻找一种方法来确保输出到.csv的行确实是随机的 B

我目前正在将一个BigQuery表提取到Google云存储中的sharded.csv中——有没有办法对提取的行进行洗牌/随机化?GCS.csv将用作GCMLE模型的训练数据,当前的输出以非随机顺序排列,因为它们由类似的“标签”聚集在一起

这会在培训GCMLE模型时产生问题,因为您必须将每个批次中所有标签的随机示例交给模型。虽然GCMLE/TF能够随机化单个.csv中的行顺序,但据我所知,没有任何方法可以随机化多个.csv中选定的行。因此,我正在寻找一种方法来确保输出到.csv的行确实是随机的

BigQuery表提取的行是否可以随机化

不。(因此,任何建立在它之上的客户机)都不允许您这样做

我正在寻找一种方法来确保输出到.csv的行确实是随机的

您应该首先创建与csv文件对应的表,然后将它们逐个提取到单独的csv文件中。在这种情况下,您可以控制进入csv的内容

若您关心的是处理成本(您需要扫描表的次数与您需要的csv文件的次数相同),那个么您可以在中检查分区方法。这仍然涉及成本,但大大降低了成本


最后,零成本选项是在整个csv文件中分发响应的同时使用API进行分页-您可以在自己选择的情况下轻松完成此操作

您无法控制如何从BigQuery导出数据。我首先会问你为什么要这么做?你想解决的问题是什么我问了这两个问题,但我相信它们是不同的问题。第一个问题更广泛地围绕着数据流管道,而这个问题询问BigQuery中的功能(在另一个问题中可能有用),而不是在其他人对BigQuery提出类似问题时,让问题(和答案)在评论中消失