在spark scala中读取大文件时丢失数据

在spark scala中读取大文件时丢失数据,scala,dataframe,apache-spark,apache-spark-sql,rdd,Scala,Dataframe,Apache Spark,Apache Spark Sql,Rdd,当我读取一个包含多达50k+行的文件时,此代码工作正常。。但是,当一个文件的行数超过100万行时,此代码开始丢失数据。当此代码读取一个文件的行数超过100万行时,最终的datframe计数仅给出65k+行数据。 我无法理解这段代码中的问题发生在哪里,以及需要在这段代码中进行哪些更改,以便它能够接收最终数据帧中的所有数据。 p、 s—此代码将接收的最高文件,有将近1400多万行,目前此代码仅接收其中的200万行。似乎与 i、 e.避免使用单调递增的id,并遵循该线程的一些建议。您是指count的值

当我读取一个包含多达50k+行的文件时,此代码工作正常。。但是,当一个文件的行数超过100万行时,此代码开始丢失数据。当此代码读取一个文件的行数超过100万行时,最终的datframe计数仅给出65k+行数据。 我无法理解这段代码中的问题发生在哪里,以及需要在这段代码中进行哪些更改,以便它能够接收最终数据帧中的所有数据。 p、 s—此代码将接收的最高文件,有将近1400多万行,目前此代码仅接收其中的200万行。

似乎与

i、 e.避免使用单调递增的id,并遵循该线程的一些建议。

您是指count的值还是finalDF的大小?
val data = spark.read
    .text(filepath)
    .toDF("val")
    .withColumn("id", monotonically_increasing_id())
val count = data.count()