Scala Spark:处理从文本文件加载的数据集列
我是Spark和Scala的新手,我试图了解操作从csv加载的表的最佳方法是什么。假设我有csv格式的features数据集,我需要按列规范化值 我从这个代码开始Scala Spark:处理从文本文件加载的数据集列,scala,apache-spark,bigdata,Scala,Apache Spark,Bigdata,我是Spark和Scala的新手,我试图了解操作从csv加载的表的最佳方法是什么。假设我有csv格式的features数据集,我需要按列规范化值 我从这个代码开始 val rdd=sc.textFile("test.csv").map(_.split(",")) 文本文件按行分割数据。如何将所有列值带到reducer以计算平均值、计数、最大值、最小值和标准化值?如何使用列索引键生成元组? 谢谢我建议您查看on,使用它,您将能够聚合您感兴趣的不同列。您有多种选择:编写您自己的类,使用名为Row&
val rdd=sc.textFile("test.csv").map(_.split(","))
文本文件按行分割数据。如何将所有列值带到reducer以计算平均值、计数、最大值、最小值和标准化值?如何使用列索引键生成元组?
谢谢我建议您查看on,使用它,您将能够聚合您感兴趣的不同列。您有多种选择:编写您自己的类,使用名为Row&Column的内置类,通过传递模式(自动返回行对象)将rdd转换为dataFrame。或者您可以直接转到mllib并使用DenseVector之类的对象。有没有一种简单的方法可以生成列号作为键和值的键对,然后在reduceByKey部分进行聚合?我正在寻找一些简单的方法,从数据集中的任何值中减去列平均值,只需在上面的RDD上使用映射器/还原器即可。