在spark scala中读取大文件时丢失数据_Scala_Dataframe_Apache Spark_Apache Spark Sql_Rdd

在spark scala中读取大文件时丢失数据

scala dataframe apache-spark

在spark scala中读取大文件时丢失数据,scala,dataframe,apache-spark,apache-spark-sql,rdd,Scala,Dataframe,Apache Spark,Apache Spark Sql,Rdd,当我读取一个包含多达50k+行的文件时，此代码工作正常。。但是，当一个文件的行数超过100万行时，此代码开始丢失数据。当此代码读取一个文件的行数超过100万行时，最终的datframe计数仅给出65k+行数据。我无法理解这段代码中的问题发生在哪里，以及需要在这段代码中进行哪些更改，以便它能够接收最终数据帧中的所有数据。 p、 s—此代码将接收的最高文件，有将近1400多万行，目前此代码仅接收其中的200万行。似乎与 i、 e.避免使用单调递增的id，并遵循该线程的一些建议。您是指count的值

当我读取一个包含多达50k+行的文件时，此代码工作正常。。但是，当一个文件的行数超过100万行时，此代码开始丢失数据。当此代码读取一个文件的行数超过100万行时，最终的datframe计数仅给出65k+行数据。我无法理解这段代码中的问题发生在哪里，以及需要在这段代码中进行哪些更改，以便它能够接收最终数据帧中的所有数据。 p、 s—此代码将接收的最高文件，有将近1400多万行，目前此代码仅接收其中的200万行。

似乎与

i、 e.避免使用单调递增的id，并遵循该线程的一些建议。

您是指count的值还是finalDF的大小？

val data = spark.read
    .text(filepath)
    .toDF("val")
    .withColumn("id", monotonically_increasing_id())
val count = data.count()