Apache spark 通过spark将前5行写入hdfs文件_Apache Spark

Apache spark 通过spark将前5行写入hdfs文件

apache-spark

Apache spark 通过spark将前5行写入hdfs文件,apache-spark,Apache Spark,我想通过spark代码将前5行写入hdfs文件 sc.textFile("hdfs://localhost:8020/user/hadoop/data-master/retail_db/products/part-00000").map( rec => ( rec.split(",")(4).toDouble, rec )).sortByKey(false).map(_._2) 在这里，我们可以使用saveAsTextFile API，但这是一个操作，我们需要通过转换来限制行。您可以使用

我想通过spark代码将前5行写入hdfs文件

sc.textFile("hdfs://localhost:8020/user/hadoop/data-master/retail_db/products/part-00000").map( rec => ( rec.split(",")(4).toDouble, rec )).sortByKey(false).map(_._2)

在这里，我们可以使用saveAsTextFile API，但这是一个操作，我们需要通过转换来限制行。

您可以使用

limit

函数来获得选中的n个第一行

def limit(n: Int): Dataset[T]

通过获取前n行返回新数据集。区别在这个函数和head之间，head是一个动作并返回数组（通过触发查询执行）而limit返回一个新的数据集

如果要将前5行作为数组，则可以使用

take

函数

yourDF.take(5)

希望这有帮助

我怀疑，这里已经回答了这个问题：可能是

yourDF.take(5)