azure中的批处理

azure中的批处理,azure,apache-spark,azure-data-lake,Azure,Apache Spark,Azure Data Lake,我们计划每天进行批处理。我们每天生成1 GB的CSV文件,并将手动将其放入Azure Data Lake Store。我已经阅读了有关批处理的Microsoft Azure文档,并决定使用Spark作为批处理。我的问题是,在我们使用RDD/DF传输数据之后,下一步是什么?我们如何将数据可视化?既然这个过程应该每天运行,一旦数据转换使用Spark完成,我们是否需要将数据推送到任何类型的数据存储中,比如hive hdfs或cosmos,然后才能将其可视化 在Azure上有几个选项可以执行此操作。这实

我们计划每天进行批处理。我们每天生成1 GB的CSV文件,并将手动将其放入Azure Data Lake Store。我已经阅读了有关批处理的Microsoft Azure文档,并决定使用Spark作为批处理。我的问题是,在我们使用RDD/DF传输数据之后,下一步是什么?我们如何将数据可视化?既然这个过程应该每天运行,一旦数据转换使用Spark完成,我们是否需要将数据推送到任何类型的数据存储中,比如hive hdfs或cosmos,然后才能将其可视化

在Azure上有几个选项可以执行此操作。这实际上取决于您的需求(例如,用户数量、所需的可视化效果等)。例如:

  • 在Azure Databricks上运行Spark,您可以使用笔记本功能来可视化数据
  • 将HDInsight与Jupyter或齐柏林飞艇笔记本一起使用
  • 在Azure Databricks上定义Spark表,并使用Power BI将其可视化
  • 使用Azure data Factory V2将数据加载到Azure SQL DB或Azure SQL数据仓库,并使用Power BI将其可视化
  • 对于时间序列数据,您可以通过Spark将数据推送到Azure EventHubs(请参见下文中带有EventHubs接收器的示例笔记本),并通过Azure Time Series Insights使用数据。如果您有一个EventData流,那么将来它也可以取代面向批处理的体系结构。拼花地板文件将被Azure Time Series Insights用作长期存储(请参见下文)。对于Spark,您还可以看看它为Spark添加了一些时间序列功能

感谢您的回复。嗯,我们从许多设备接收时间序列仪表数据:相位时间(UTC)传感器电压(Vrms)电流(Arms)实际功率(kW)无功功率(kVAr)A 2017年11月30日0:00 1 242.049 94.7869 22.6874 3.4158 B 2017年11月30日0:00 2 242.648 58.2347 13.9256 2.39754 C 2017年11月30日0:00 3 243.448 74.8243 17.0897 6.30549 A 2017年11月30日0:10 1 241.358 93.3049 22.2974 3.15765这就是我们的数据,目前,我们正在考虑每天包含1 GB CSV文件的批处理,但后来,我们也实现了实时处理。我的第一个问题是Power BI在Jupyter或齐柏林飞艇笔记本上提供了什么可视化功能,既然它是一个时间序列,我们应该像Inflow一样使用时间序列数据库吗?还是像parquet这样的面向列的文件格式来存储spark处理前后的数据?