Apache spark Apache Spark（scala）和#x2B；用于数据分析的python/R工作流程_Apache Spark_Apache Spark Sql_Data Analysis_Bigdata

Apache spark Apache Spark（scala）和#x2B；用于数据分析的python/R工作流程

apache-spark

Apache spark Apache Spark（scala）和#x2B；用于数据分析的python/R工作流程,apache-spark,apache-spark-sql,data-analysis,bigdata,Apache Spark,Apache Spark Sql,Data Analysis,Bigdata,我想知道人们在用这个堆栈做数据分析。我对Spark Scala API特别感兴趣，因为它似乎有更新的特性，而且Spark更“自然” 然而，我不确定在大数据被压缩和压缩后，数据可视化和探索的最佳实践是什么例如，我运行了一个超过20亿条记录的Spark作业，现在我有了一个Spark数据帧，它由大约100k条记录组成，其中包含一些结果，我想在python或R中对这些结果进行柱状图、绘图和应用一些ML 在这两个世界之间实现握手的最佳方式是什么？是否将结果保存到文件？（如果是，最好的选择是什么，拼花地板

我想知道人们在用这个堆栈做数据分析。我对Spark Scala API特别感兴趣，因为它似乎有更新的特性，而且Spark更“自然”

然而，我不确定在大数据被压缩和压缩后，数据可视化和探索的最佳实践是什么

例如，我运行了一个超过20亿条记录的Spark作业，现在我有了一个Spark数据帧，它由大约100k条记录组成，其中包含一些结果，我想在python或R中对这些结果进行柱状图、绘图和应用一些ML

在这两个世界之间实现握手的最佳方式是什么？是否将结果保存到文件？（如果是，最好的选择是什么，拼花地板、avro、json、csv？）将其保存到DB

基本上我想知道其他人能找到什么最合适的方法来处理类似的堆栈。

< P>一旦数据在SCAP中被转换或压缩，你可以考虑以下来可视化数据。用于交互式数据分析

另一个选择是将Spark jobs输出的结果存储在ElasticSearch中，我们可以使用Kibana可视化