Scala Spark：处理从文本文件加载的数据集列_Scala_Apache Spark_Bigdata

Scala Spark：处理从文本文件加载的数据集列

scala apache-spark

Scala Spark：处理从文本文件加载的数据集列,scala,apache-spark,bigdata,Scala,Apache Spark,Bigdata,我是Spark和Scala的新手，我试图了解操作从csv加载的表的最佳方法是什么。假设我有csv格式的features数据集，我需要按列规范化值我从这个代码开始 val rdd=sc.textFile("test.csv").map(_.split(",")) 文本文件按行分割数据。如何将所有列值带到reducer以计算平均值、计数、最大值、最小值和标准化值？如何使用列索引键生成元组？谢谢我建议您查看on，使用它，您将能够聚合您感兴趣的不同列。您有多种选择：编写您自己的类，使用名为Row&

我是Spark和Scala的新手，我试图了解操作从csv加载的表的最佳方法是什么。假设我有csv格式的features数据集，我需要按列规范化值

我从这个代码开始

val rdd=sc.textFile("test.csv").map(_.split(","))

文本文件按行分割数据。如何将所有列值带到reducer以计算平均值、计数、最大值、最小值和标准化值？如何使用列索引键生成元组？

谢谢

我建议您查看on，使用它，您将能够聚合您感兴趣的不同列。

您有多种选择：编写您自己的类，使用名为Row&Column的内置类，通过传递模式（自动返回行对象）将rdd转换为dataFrame。或者您可以直接转到mllib并使用DenseVector之类的对象。有没有一种简单的方法可以生成列号作为键和值的键对，然后在reduceByKey部分进行聚合？我正在寻找一些简单的方法，从数据集中的任何值中减去列平均值，只需在上面的RDD上使用映射器/还原器即可。