azure中的批处理_Azure_Apache Spark_Azure Data Lake

azure中的批处理

azure apache-spark

azure中的批处理,azure,apache-spark,azure-data-lake,Azure,Apache Spark,Azure Data Lake,我们计划每天进行批处理。我们每天生成1 GB的CSV文件，并将手动将其放入Azure Data Lake Store。我已经阅读了有关批处理的Microsoft Azure文档，并决定使用Spark作为批处理。我的问题是，在我们使用RDD/DF传输数据之后，下一步是什么？我们如何将数据可视化？既然这个过程应该每天运行，一旦数据转换使用Spark完成，我们是否需要将数据推送到任何类型的数据存储中，比如hive hdfs或cosmos，然后才能将其可视化在Azure上有几个选项可以执行此操作。这实

我们计划每天进行批处理。我们每天生成1 GB的CSV文件，并将手动将其放入Azure Data Lake Store。我已经阅读了有关批处理的Microsoft Azure文档，并决定使用Spark作为批处理。我的问题是，在我们使用RDD/DF传输数据之后，下一步是什么？我们如何将数据可视化？既然这个过程应该每天运行，一旦数据转换使用Spark完成，我们是否需要将数据推送到任何类型的数据存储中，比如hive hdfs或cosmos，然后才能将其可视化

在Azure上有几个选项可以执行此操作。这实际上取决于您的需求（例如，用户数量、所需的可视化效果等）。例如：

在Azure Databricks上运行Spark，您可以使用笔记本功能来可视化数据
将HDInsight与Jupyter或齐柏林飞艇笔记本一起使用
在Azure Databricks上定义Spark表，并使用Power BI将其可视化
使用Azure data Factory V2将数据加载到Azure SQL DB或Azure SQL数据仓库，并使用Power BI将其可视化
对于时间序列数据，您可以通过Spark将数据推送到Azure EventHubs（请参见下文中带有EventHubs接收器的示例笔记本），并通过Azure Time Series Insights使用数据。如果您有一个EventData流，那么将来它也可以取代面向批处理的体系结构。拼花地板文件将被Azure Time Series Insights用作长期存储（请参见下文）。对于Spark，您还可以看看它为Spark添加了一些时间序列功能

感谢您的回复。嗯，我们从许多设备接收时间序列仪表数据：相位时间（UTC）传感器电压（Vrms）电流（Arms）实际功率（kW）无功功率（kVAr）A 2017年11月30日0:00 1 242.049 94.7869 22.6874 3.4158 B 2017年11月30日0:00 2 242.648 58.2347 13.9256 2.39754 C 2017年11月30日0:00 3 243.448 74.8243 17.0897 6.30549 A 2017年11月30日0:10 1 241.358 93.3049 22.2974 3.15765这就是我们的数据，目前，我们正在考虑每天包含1 GB CSV文件的批处理，但后来，我们也实现了实时处理。我的第一个问题是Power BI在Jupyter或齐柏林飞艇笔记本上提供了什么可视化功能，既然它是一个时间序列，我们应该像Inflow一样使用时间序列数据库吗？还是像parquet这样的面向列的文件格式来存储spark处理前后的数据？