Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala Spark:处理从文本文件加载的数据集列_Scala_Apache Spark_Bigdata - Fatal编程技术网

Scala Spark:处理从文本文件加载的数据集列

Scala Spark:处理从文本文件加载的数据集列,scala,apache-spark,bigdata,Scala,Apache Spark,Bigdata,我是Spark和Scala的新手,我试图了解操作从csv加载的表的最佳方法是什么。假设我有csv格式的features数据集,我需要按列规范化值 我从这个代码开始 val rdd=sc.textFile("test.csv").map(_.split(",")) 文本文件按行分割数据。如何将所有列值带到reducer以计算平均值、计数、最大值、最小值和标准化值?如何使用列索引键生成元组? 谢谢我建议您查看on,使用它,您将能够聚合您感兴趣的不同列。您有多种选择:编写您自己的类,使用名为Row&

我是Spark和Scala的新手,我试图了解操作从csv加载的表的最佳方法是什么。假设我有csv格式的features数据集,我需要按列规范化值

我从这个代码开始

val rdd=sc.textFile("test.csv").map(_.split(","))
文本文件按行分割数据。如何将所有列值带到reducer以计算平均值、计数、最大值、最小值和标准化值?如何使用列索引键生成元组?
谢谢

我建议您查看on,使用它,您将能够聚合您感兴趣的不同列。

您有多种选择:编写您自己的类,使用名为Row&Column的内置类,通过传递模式(自动返回行对象)将rdd转换为dataFrame。或者您可以直接转到mllib并使用DenseVector之类的对象。有没有一种简单的方法可以生成列号作为键和值的键对,然后在reduceByKey部分进行聚合?我正在寻找一些简单的方法,从数据集中的任何值中减去列平均值,只需在上面的RDD上使用映射器/还原器即可。