Google bigquery 使用BigQuery进行实时分析_Google Bigquery

Google bigquery 使用BigQuery进行实时分析

google-bigquery

Google bigquery 使用BigQuery进行实时分析,google-bigquery,Google Bigquery,有没有办法用BigQuery运行实时分析？我使用CSV上传选项启动作业并以脱机模式加载数据，加载完成后可以对其进行分析。但是在关于BigQuery的公告中提到了使用BigQuery进行实时分析。如何做到这一点？我们能否以涓涓流模式将谷歌云数据库中的数据（无更新）附加到BigQuery以进行实时分析作为旁注，我注意到BigQuery CSV数据加载比使用10GB数据文件在本地PC上运行的LucidDB和InfiniDB慢一个数量级。BigQuery作业完成需要34分钟，而InfiniDB和Luc

有没有办法用BigQuery运行实时分析？我使用CSV上传选项启动作业并以脱机模式加载数据，加载完成后可以对其进行分析。但是在关于BigQuery的公告中提到了使用BigQuery进行实时分析。如何做到这一点？我们能否以涓涓流模式将谷歌云数据库中的数据（无更新）附加到BigQuery以进行实时分析

作为旁注，我注意到BigQuery CSV数据加载比使用10GB数据文件在本地PC上运行的LucidDB和InfiniDB慢一个数量级。BigQuery作业完成需要34分钟，而InfiniDB和LucidDB则需要5分钟。BigQuery上的查询执行时间（对于简单聚合）是InfiniDB的两倍（对于加载了约3000多万条记录的10GB文件，是6秒，而不是3秒），但比LucidDB好

目前无法使用BigQuery一次直接将数据流传输到一条记录。唯一受支持的摄取方法是从Google云存储导入csv文件，或者直接通过多部分mime POST请求导入csv文件。摄入配额为每分钟2次导入，每天1000次导入请求，每次导入请求的总数据量为100GB（请参阅：）

“实时分析”（能够在海量数据上运行非常快速的即席查询）和持续收集“实时数据”（关键值数据存储更适合支持这些数据）之间存在区别。BigQuery当前的摄取机制不支持持续的单记录更新，但它允许开发人员在海量数据集上快速运行查询

虽然堆栈溢出不是讨论基准测试最合适的地方，但我要补充的是，如果不了解所用数据的模式，就很难对摄取和查询速度进行基准测试。虽然10Gb是大量数据，但在更大的数据集（比如10 TB或更大）上比较摄入和查询速度会很有趣

2013年更新：现在您可以将数据流式传输到BigQuery，并实时查询

（您流式传输的数据可在稍后的瞬间查询）

在BiqQuery中导入大量数据的最佳方法是使用Google提供的python工具。这是上传数据最有效的方式。我正在使用这些工具

首先使用

使用将该数据从GC导入BigQuery

最好将实时分析和数据仓库分开。可以针对数据收集速度进行优化，以提供警报和触发器。后者用于大规模并行搜索和聚合

这两个问题都没有真正的解决方案，因为它们是相互排斥的。要快速进行大型数据聚合，您必须在索引和存储数据方面执行大量工作，而为了快速访问数据，您需要最小化这些操作。

如果您正在寻找与关系数据仓库并行运行的基于SQL的实时分析层，我们最近发布了一个名为的实时分析API产品，它使用流数据上的连续SQL查询来支持您所说的实时分析层类型。Stride基于我们的开源流式SQL数据库，这是PostgreSQL的一个分支，到今年年底它将成为标准的PostgreSQL扩展

实时分析层的流上连续SQL查询的好处在于，如果您有实时需求，那么根据定义，您已经知道要运行的查询，因此连续查询既可以加快速度，又可以大大简化您的实时数据体系结构，同时降低存储无关的细粒度数据所产生的成本。

您的意思是“BigQuery当前的摄取机制不支持持续的单记录更新”？2013年更新：现在您可以将数据流化。