Scala 如何在spark中处理大型文本文件?
我有一个大的文本文件(3 GB),它是DNA参考。我想把它切成几部分,这样我就能处理它了Scala 如何在spark中处理大型文本文件?,scala,apache-spark,dna-sequence,Scala,Apache Spark,Dna Sequence,我有一个大的文本文件(3 GB),它是DNA参考。我想把它切成几部分,这样我就能处理它了 所以我想知道如何用Spark分割文件。我目前只有一个具有4 GB内存的节点听起来您想将文件作为多个分区加载。如果您的文件是可拆分的(文本文件、snappy、sequence等),您可以简单地提供加载它的分区数,即sc.textFile(inputPath、numPartitions)。如果您的文件不可拆分,它将作为一个分区加载,但您可以在加载的RDD上调用.repartition(numPartitions
所以我想知道如何用Spark分割文件。我目前只有一个具有4 GB内存的节点听起来您想将文件作为多个分区加载。如果您的文件是可拆分的(文本文件、snappy、sequence等),您可以简单地提供加载它的分区数,即
sc.textFile(inputPath、numPartitions)
。如果您的文件不可拆分,它将作为一个分区加载,但您可以在加载的RDD上调用.repartition(numPartitions)
将其重新分区到多个分区中 如果您希望在每个块中包含特定数量的行,可以尝试以下方法:
rdd=sc.textFile(inputPath).zipWithIndex()
rdd2=rdd.filter(x=>lowest_no_of_line<=x._2 & x._2<=highest_no_of_line).map(x=>x._1).coalesce(1,false)
rdd2.saveAsTextFile(outputpath)
rdd=sc.textFile(inputPath).zipWithIndex()
rdd2=rdd.filter(x=>lower\u no\u of\u line在没有指定分区的情况下,您现在面临的问题是什么?