Java Spark数据结构,用于从.csv读取记录并执行数据分析

Java Spark数据结构,用于从.csv读取记录并执行数据分析,java,apache-spark,rdd,Java,Apache Spark,Rdd,我有一个CSV文件,它有数百万行记录(大约2GB)和15列。我需要在这个文件中计算不同的指标,例如中位数、平均值、平均值和一些其他统计数据 我是Spark的新手,不确定我需要什么样的Spark数据结构来保存所有这些记录。我是否应该创建一个表示一行数据的类,称为MyClass,然后将数据读入JavaRDD 还是使用数据帧更好?如何从.csv文件创建数据帧,以及如何从.csv文件创建JavaRDD 更新:如果有问题,.csv文件没有架构。模式存在于单独的.csv文件中。Dataframe是较新的推荐

我有一个CSV文件,它有数百万行记录(大约2GB)和15列。我需要在这个文件中计算不同的指标,例如中位数、平均值、平均值和一些其他统计数据

我是Spark的新手,不确定我需要什么样的Spark数据结构来保存所有这些记录。我是否应该创建一个表示一行数据的类,称为
MyClass
,然后将数据读入
JavaRDD

还是使用数据帧更好?如何从
.csv
文件创建数据帧,以及如何从
.csv
文件创建
JavaRDD


更新:如果有问题,
.csv
文件没有架构。模式存在于单独的
.csv
文件中。

Dataframe是较新的推荐API。除非确实需要较低级别的功能,否则应该避免使用RDD。从dataframe计算摘要统计信息很简单。查看spark sql中数据帧和百分比近似值的
descripe()
方法