Azure数据浏览器(ADX)vs Polybase vs Datatricks 问题:

Azure数据浏览器(ADX)vs Polybase vs Datatricks 问题:,azure,databricks,azure-sqldw,azure-data-explorer,polybase,Azure,Databricks,Azure Sqldw,Azure Data Explorer,Polybase,今天我发现了另一个Azure服务,名为。很抱歉对这些服务进行比较,除了ADX之外,我对所有服务都有很好的了解。我觉得有一个很大的功能覆盖,所以我想知道ADX在Azure基础设施中的确切角色 当ADX明显优于Synapse/Databricks时,用例是什么 我对ADX的理解 AFAIK,ADX是一个集群(具有每小时计费功能,如DataRicks或Synapse,而不是ADLA),它为您处理数据库,并针对大规模的流式摄取和即席查询进行了优化。它还支持性能更差但更便宜的外部表(您需要为Blob/AD

今天我发现了另一个Azure服务,名为。很抱歉对这些服务进行比较,除了ADX之外,我对所有服务都有很好的了解。我觉得有一个很大的功能覆盖,所以我想知道ADX在Azure基础设施中的确切角色

当ADX明显优于Synapse/Databricks时,用例是什么

我对ADX的理解 AFAIK,ADX是一个集群(具有每小时计费功能,如DataRicks或Synapse,而不是ADLA),它为您处理数据库,并针对大规模的流式摄取和即席查询进行了优化。它还支持性能更差但更便宜的外部表(您需要为Blob/ADLS存储付费)

细节 我不明白为什么我们需要ADX,如果:

  • Azure Synapse具有类似的定价模型(群集,每小时),还支持流式摄取和大规模的即席查询。Azure Synapse支持通过Polybase外部表查询BlobStorage/ADL
  • Databricks是另一个能够做到这一点的服务。使用Databricks Ingest和Delta Lake,您可以摄取流式数据并以流式和批处理方式使用它们。实际上,您可以使用交互式集群来为您处理即席查询
  • 此外,如果您想要实时分析,请使用Azure Stream analytics。如果你想要类似雅典娜的体验,请使用ADLA(它仍然不支持ADLS gen2)

  • Azure Data Explorer别名Kusto专注于大容量数据摄取和几乎实时的查询和分析。它是微软为日志和遥测分析而发明的,但也可用于其他用途,如物联网、传感器数据或网络分析。Azure内部服务(如Azure Monitor和Log Analytics)中也使用了相同的技术

    类似的功能可以构建在Synapse、Databricks或HDInsight上,但我认为这些工具适合更广泛的用例。ADX的焦点非常窄。ADX确实支持查询(“KQL”),但对SQL的支持非常有限。它适用于仅附加数据,而不适用于更新。它不是数据仓库、数据库或数据湖


    Microsoft material指的是名为Kusto的ADX背后的技术。更多信息请访问。在这篇博文中可以找到一个很好的服务比较:

    Azure Data Explorer专注于高速、高容量、高差异(大数据的3对)。它提供了超级快速的交互式查询,这些数据是流式输入的。它本机支持json和文本,包括全文搜索和索引

    它被用于与大量垂直领域中的感知活动和时间序列相关的一系列场景中:物联网、API日志、事务监控和临时数据探索

    微软将ADX作为一项服务提供,因为它是微软用于其自身遥测的主要服务,我们在安全、运营监控、游戏分析、产品洞察使用分析、物联网、连接车辆等领域提供的所有分析解决方案都是基于ADX的。您可以在我们的文档中找到完整的列表。为了清楚起见,SQL、Synapse、CosmosDB正在Azure数据浏览器中存储遥测数据

    SQLDW(又名SynapseSQLPool)是一个优秀的数据仓库,实现了现代数据仓库模式。ETL->策划的数据模型->通过分析服务或power BI加载和服务。
    ADX是用于实时分析的,能够在数据上应用读取模式(SOR),新的数据只有几秒钟

    在替换用于日志、时间序列数据库等的基于SOLR/Lucine的变体时,请考虑将ADX作为一个完全管理的平台

    在较大的工作负载中尝试一下,您会发现它比其他替代产品便宜得多,而且功能更强大,性能更高


    如果你需要帮助,请联系我

    我认为Spark&Databricks在3V上也表现得很好。据我从您的回答中了解,ADX为您实时(或接近实时?)处理数据。当使用ADX比使用Databricks/Spark或Flink更好时,您能提供一个用例吗?或者你有没有参考过一篇关于ADX架构细节的文章?我用Spark构建了一个近乎实时的系统,它运行得非常好。对于实时,我想可能有人会使用Flink或Kafka Streams。何时以及为什么ADX优于这些工具?ADX在大数据集上进行交互式查询时速度显著加快。如果您使用批处理,请选择spark。如果您想快速查询新的和大的数据集,ADX会更快、更容易使用,即使对于非程序员也是如此。谢谢您的回答!但是当有人说工具X类似于工具Y,但是X的用例范围更窄——我想X应该非常擅长这个用例(优于Y)。请提供ADX为什么/何时应取代Nifi/Spark/Databricks/等的详细信息/示例。