Google bigquery BigQuery表提取的行是否可以随机化
我目前正在将一个BigQuery表提取到Google云存储中的sharded.csv中——有没有办法对提取的行进行洗牌/随机化?GCS.csv将用作GCMLE模型的训练数据,当前的输出以非随机顺序排列,因为它们由类似的“标签”聚集在一起 这会在培训GCMLE模型时产生问题,因为您必须将每个批次中所有标签的随机示例交给模型。虽然GCMLE/TF能够随机化单个.csv中的行顺序,但据我所知,没有任何方法可以随机化多个.csv中选定的行。因此,我正在寻找一种方法来确保输出到.csv的行确实是随机的 BigQuery表提取的行是否可以随机化 不。(因此,任何建立在它之上的客户机)都不允许您这样做 我正在寻找一种方法来确保输出到.csv的行确实是随机的 您应该首先创建与csv文件对应的表,然后将它们逐个提取到单独的csv文件中。在这种情况下,您可以控制进入csv的内容 若您关心的是处理成本(您需要扫描表的次数与您需要的csv文件的次数相同),那个么您可以在中检查分区方法。这仍然涉及成本,但大大降低了成本Google bigquery BigQuery表提取的行是否可以随机化,google-bigquery,google-cloud-platform,Google Bigquery,Google Cloud Platform,我目前正在将一个BigQuery表提取到Google云存储中的sharded.csv中——有没有办法对提取的行进行洗牌/随机化?GCS.csv将用作GCMLE模型的训练数据,当前的输出以非随机顺序排列,因为它们由类似的“标签”聚集在一起 这会在培训GCMLE模型时产生问题,因为您必须将每个批次中所有标签的随机示例交给模型。虽然GCMLE/TF能够随机化单个.csv中的行顺序,但据我所知,没有任何方法可以随机化多个.csv中选定的行。因此,我正在寻找一种方法来确保输出到.csv的行确实是随机的 B
最后,零成本选项是在整个csv文件中分发响应的同时使用API进行分页-您可以在自己选择的情况下轻松完成此操作您无法控制如何从BigQuery导出数据。我首先会问你为什么要这么做?你想解决的问题是什么我问了这两个问题,但我相信它们是不同的问题。第一个问题更广泛地围绕着数据流管道,而这个问题询问BigQuery中的功能(在另一个问题中可能有用),而不是在其他人对BigQuery提出类似问题时,让问题(和答案)在评论中消失