Google bigquery 关于bigquery的查询需要更多时间

Google bigquery 关于bigquery的查询需要更多时间,google-bigquery,Google Bigquery,我上传了80,00000个10+1(也尝试了20+1和100+1)变量的观测值文件,除权重(float)外,所有变量均为二进制(0,1),并执行了一些简单的查询,如: SELECT sum(col1),sum(wt*col1),sum(col2),sum(wt*col2),sum(col3),sum(wt*col3),sum(col4),sum(wt*col4),sum(col5),sum(wt*col5),sum(col6),sum(wt*col6) ,sum(col7),sum(wt*col

我上传了80,00000个10+1(也尝试了20+1和100+1)变量的观测值文件,除权重(float)外,所有变量均为二进制(0,1),并执行了一些简单的查询,如:

SELECT sum(col1),sum(wt*col1),sum(col2),sum(wt*col2),sum(col3),sum(wt*col3),sum(col4),sum(wt*col4),sum(col5),sum(wt*col5),sum(col6),sum(wt*col6)
,sum(col7),sum(wt*col7),sum(col8),sum(wt*col8),sum(col9),sum(wt*col9),sum(col10),sum(wt*col10)
FROM [bigquery_dummy_dataset.bin_006b];
此查询大约需要
5.6秒
,而对
100列执行此查询大约需要21秒
。我觉得它比其他现有的数据库技术慢(在SQLServer中,通过使用索引,我们已经获得了更高的性能)。但是,我想处理更多的数据(最多2000个变量)

我做错什么了吗?有没有办法加快运行时间?

1)大查询是一个高度可扩展的数据库,而不是一个“超级快速”的数据库。它的设计目的是使用一种名为Dremel的技术处理大量数据,这些数据分布在多台不同的机器之间。因为它被设计为使用多台机器和并行处理,所以您应该期望具有具有良好性能的超级可扩展性

2)BigQuery是分析数十亿行的一种资产

例如:在5-10秒内分析所有维基百科的修订版并不坏,是吗?但是,即使是一个小得多的表也需要大约相同的时间,即使它有10k行

3)在这种规模下,您最好使用更传统的数据存储解决方案,如云SQL或App Engine数据存储。如果您想保持SQL功能,云SQL是最好的猜测

Sybase IQ通常安装在单个数据库中,不使用Dremel。这就是说,在许多情况下,它将比大查询更快……正如设计的那样

4)当然,性能不同于专用环境。您每月可获得2万美元的专用环境