azure中的批处理
我们计划每天进行批处理。我们每天生成1 GB的CSV文件,并将手动将其放入Azure Data Lake Store。我已经阅读了有关批处理的Microsoft Azure文档,并决定使用Spark作为批处理。我的问题是,在我们使用RDD/DF传输数据之后,下一步是什么?我们如何将数据可视化?既然这个过程应该每天运行,一旦数据转换使用Spark完成,我们是否需要将数据推送到任何类型的数据存储中,比如hive hdfs或cosmos,然后才能将其可视化 在Azure上有几个选项可以执行此操作。这实际上取决于您的需求(例如,用户数量、所需的可视化效果等)。例如:azure中的批处理,azure,apache-spark,azure-data-lake,Azure,Apache Spark,Azure Data Lake,我们计划每天进行批处理。我们每天生成1 GB的CSV文件,并将手动将其放入Azure Data Lake Store。我已经阅读了有关批处理的Microsoft Azure文档,并决定使用Spark作为批处理。我的问题是,在我们使用RDD/DF传输数据之后,下一步是什么?我们如何将数据可视化?既然这个过程应该每天运行,一旦数据转换使用Spark完成,我们是否需要将数据推送到任何类型的数据存储中,比如hive hdfs或cosmos,然后才能将其可视化 在Azure上有几个选项可以执行此操作。这实
- 在Azure Databricks上运行Spark,您可以使用笔记本功能来可视化数据
- 将HDInsight与Jupyter或齐柏林飞艇笔记本一起使用
- 在Azure Databricks上定义Spark表,并使用Power BI将其可视化
- 使用Azure data Factory V2将数据加载到Azure SQL DB或Azure SQL数据仓库,并使用Power BI将其可视化
- 对于时间序列数据,您可以通过Spark将数据推送到Azure EventHubs(请参见下文中带有EventHubs接收器的示例笔记本),并通过Azure Time Series Insights使用数据。如果您有一个EventData流,那么将来它也可以取代面向批处理的体系结构。拼花地板文件将被Azure Time Series Insights用作长期存储(请参见下文)。对于Spark,您还可以看看它为Spark添加了一些时间序列功能