Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/wcf/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Apache Spark(scala)和#x2B;用于数据分析的python/R工作流程_Apache Spark_Apache Spark Sql_Data Analysis_Bigdata - Fatal编程技术网

Apache spark Apache Spark(scala)和#x2B;用于数据分析的python/R工作流程

Apache spark Apache Spark(scala)和#x2B;用于数据分析的python/R工作流程,apache-spark,apache-spark-sql,data-analysis,bigdata,Apache Spark,Apache Spark Sql,Data Analysis,Bigdata,我想知道人们在用这个堆栈做数据分析。我对Spark Scala API特别感兴趣,因为它似乎有更新的特性,而且Spark更“自然” 然而,我不确定在大数据被压缩和压缩后,数据可视化和探索的最佳实践是什么 例如,我运行了一个超过20亿条记录的Spark作业,现在我有了一个Spark数据帧,它由大约100k条记录组成,其中包含一些结果,我想在python或R中对这些结果进行柱状图、绘图和应用一些ML 在这两个世界之间实现握手的最佳方式是什么?是否将结果保存到文件?(如果是,最好的选择是什么,拼花地板

我想知道人们在用这个堆栈做数据分析。我对Spark Scala API特别感兴趣,因为它似乎有更新的特性,而且Spark更“自然”

然而,我不确定在大数据被压缩和压缩后,数据可视化和探索的最佳实践是什么

例如,我运行了一个超过20亿条记录的Spark作业,现在我有了一个Spark数据帧,它由大约100k条记录组成,其中包含一些结果,我想在python或R中对这些结果进行柱状图、绘图和应用一些ML

在这两个世界之间实现握手的最佳方式是什么?是否将结果保存到文件?(如果是,最好的选择是什么,拼花地板、avro、json、csv?)将其保存到DB


基本上我想知道其他人能找到什么最合适的方法来处理类似的堆栈。

< P>一旦数据在SCAP中被转换或压缩,你可以考虑以下来可视化数据。 用于交互式数据分析

另一个选择是将Spark jobs输出的结果存储在ElasticSearch中,我们可以使用Kibana可视化