Google bigquery 使用BigQuery进行实时分析

Google bigquery 使用BigQuery进行实时分析,google-bigquery,Google Bigquery,有没有办法用BigQuery运行实时分析?我使用CSV上传选项启动作业并以脱机模式加载数据,加载完成后可以对其进行分析。但是在关于BigQuery的公告中提到了使用BigQuery进行实时分析。如何做到这一点?我们能否以涓涓流模式将谷歌云数据库中的数据(无更新)附加到BigQuery以进行实时分析 作为旁注,我注意到BigQuery CSV数据加载比使用10GB数据文件在本地PC上运行的LucidDB和InfiniDB慢一个数量级。BigQuery作业完成需要34分钟,而InfiniDB和Luc

有没有办法用BigQuery运行实时分析?我使用CSV上传选项启动作业并以脱机模式加载数据,加载完成后可以对其进行分析。但是在关于BigQuery的公告中提到了使用BigQuery进行实时分析。如何做到这一点?我们能否以涓涓流模式将谷歌云数据库中的数据(无更新)附加到BigQuery以进行实时分析

作为旁注,我注意到BigQuery CSV数据加载比使用10GB数据文件在本地PC上运行的LucidDB和InfiniDB慢一个数量级。BigQuery作业完成需要34分钟,而InfiniDB和LucidDB则需要5分钟。BigQuery上的查询执行时间(对于简单聚合)是InfiniDB的两倍(对于加载了约3000多万条记录的10GB文件,是6秒,而不是3秒),但比LucidDB好

  • 目前无法使用BigQuery一次直接将数据流传输到一条记录。唯一受支持的摄取方法是从Google云存储导入csv文件,或者直接通过多部分mime POST请求导入csv文件。摄入配额为每分钟2次导入,每天1000次导入请求,每次导入请求的总数据量为100GB(请参阅:)

  • “实时分析”(能够在海量数据上运行非常快速的即席查询)和持续收集“实时数据”(关键值数据存储更适合支持这些数据)之间存在区别。BigQuery当前的摄取机制不支持持续的单记录更新,但它允许开发人员在海量数据集上快速运行查询

  • 虽然堆栈溢出不是讨论基准测试最合适的地方,但我要补充的是,如果不了解所用数据的模式,就很难对摄取和查询速度进行基准测试。虽然10Gb是大量数据,但在更大的数据集(比如10 TB或更大)上比较摄入和查询速度会很有趣


  • 2013年更新:现在您可以将数据流式传输到BigQuery,并实时查询

    (您流式传输的数据可在稍后的瞬间查询)


    在BiqQuery中导入大量数据的最佳方法是使用Google提供的python工具。这是上传数据最有效的方式。我正在使用这些工具

  • 首先使用
  • 使用将该数据从GC导入BigQuery

  • 最好将实时分析和数据仓库分开。可以针对数据收集速度进行优化,以提供警报和触发器。后者用于大规模并行搜索和聚合


    这两个问题都没有真正的解决方案,因为它们是相互排斥的。要快速进行大型数据聚合,您必须在索引和存储数据方面执行大量工作,而为了快速访问数据,您需要最小化这些操作。

    如果您正在寻找与关系数据仓库并行运行的基于SQL的实时分析层,我们最近发布了一个名为的实时分析API产品,它使用流数据上的连续SQL查询来支持您所说的实时分析层类型。Stride基于我们的开源流式SQL数据库,这是PostgreSQL的一个分支,到今年年底它将成为标准的PostgreSQL扩展


    实时分析层的流上连续SQL查询的好处在于,如果您有实时需求,那么根据定义,您已经知道要运行的查询,因此连续查询既可以加快速度,又可以大大简化您的实时数据体系结构,同时降低存储无关的细粒度数据所产生的成本。

    您的意思是“BigQuery当前的摄取机制不支持持续的单记录更新”?2013年更新:现在您可以将数据流化。