Apache spark 为什么Spark程序不一致,并且没有考虑完整的输入或记录数

Apache spark 为什么Spark程序不一致,并且没有考虑完整的输入或记录数,apache-spark,Apache Spark,我的spark程序运行良好,当输入文件大小小于~2GB时,可以正确处理所有记录。当使用8GB运行时,同一程序不考虑所有输入记录,只处理90%的记录 我尝试过更改Spark提交参数,但不起作用。请建议 甚至Spark UI在“Input Size/records:”字段中也显示了较少的记录数 spark submit--部署模式客户端--主线程--执行器内存6G--执行器内核5--num executors 25--class com.test.spark.etc如何读取输入?如何比较输入和输入文

我的spark程序运行良好,当输入文件大小小于~2GB时,可以正确处理所有记录。当使用8GB运行时,同一程序不考虑所有输入记录,只处理90%的记录

我尝试过更改Spark提交参数,但不起作用。请建议

甚至Spark UI在“Input Size/records:”字段中也显示了较少的记录数


spark submit--部署模式客户端--主线程--执行器内存6G--执行器内核5--num executors 25--class com.test.spark.etc

如何读取输入?如何比较输入和输入文件本身中的记录?更多的代码…我的打字错误,是“不一致”而不是“一致”的问题,我现在已经纠正了。我们使用分隔符从文本文件读取输入,然后解析为字段。代码将使用field1在Hbase表中查找并获得相应的值,然后写入新文件。我不能将代码作为机密共享,但我可以将其转换为文字或伪代码。如何计算文件中的记录数以及Spark读取的内容?你用什么模块?Spark Streaming或Spark Core with RDDs?我正在Spark UI中检查有多少记录及其考虑的大小,并且在Spark作业完成后,我正在使用输入进行验证。另外,我正在对实际输入文件的记录计数执行“wc-l”。我正在使用带RDDs的Spark core。您如何读取该文件?你能显示用户界面吗?