Google bigquery 关于bigquery的查询需要更多时间_Google Bigquery

Google bigquery 关于bigquery的查询需要更多时间

google-bigquery

Google bigquery 关于bigquery的查询需要更多时间,google-bigquery,Google Bigquery,我上传了80,00000个10+1（也尝试了20+1和100+1）变量的观测值文件，除权重（float）外，所有变量均为二进制（0,1），并执行了一些简单的查询，如： SELECT sum(col1),sum(wt*col1),sum(col2),sum(wt*col2),sum(col3),sum(wt*col3),sum(col4),sum(wt*col4),sum(col5),sum(wt*col5),sum(col6),sum(wt*col6) ,sum(col7),sum(wt*col

我上传了80,00000个10+1（也尝试了20+1和100+1）变量的观测值文件，除权重（float）外，所有变量均为二进制（0,1），并执行了一些简单的查询，如：

SELECT sum(col1),sum(wt*col1),sum(col2),sum(wt*col2),sum(col3),sum(wt*col3),sum(col4),sum(wt*col4),sum(col5),sum(wt*col5),sum(col6),sum(wt*col6)
,sum(col7),sum(wt*col7),sum(col8),sum(wt*col8),sum(col9),sum(wt*col9),sum(col10),sum(wt*col10)
FROM [bigquery_dummy_dataset.bin_006b];

此查询大约需要

5.6秒

，而对

100列执行此查询大约需要21秒

。我觉得它比其他现有的数据库技术慢（在SQLServer中，通过使用索引，我们已经获得了更高的性能）。但是，我想处理更多的数据（最多2000个变量）

我做错什么了吗？有没有办法加快运行时间？

1）大查询是一个高度可扩展的数据库，而不是一个“超级快速”的数据库。它的设计目的是使用一种名为Dremel的技术处理大量数据，这些数据分布在多台不同的机器之间。因为它被设计为使用多台机器和并行处理，所以您应该期望具有具有良好性能的超级可扩展性

2）BigQuery是分析数十亿行的一种资产

例如：在5-10秒内分析所有维基百科的修订版并不坏，是吗？但是，即使是一个小得多的表也需要大约相同的时间，即使它有10k行

3）在这种规模下，您最好使用更传统的数据存储解决方案，如云SQL或App Engine数据存储。如果您想保持SQL功能，云SQL是最好的猜测

Sybase IQ通常安装在单个数据库中，不使用Dremel。这就是说，在许多情况下，它将比大查询更快……正如设计的那样

4）当然，性能不同于专用环境。您每月可获得2万美元的专用环境