Apache spark 为什么Spark程序不一致，并且没有考虑完整的输入或记录数_Apache Spark

Apache spark 为什么Spark程序不一致，并且没有考虑完整的输入或记录数

apache-spark

Apache spark 为什么Spark程序不一致，并且没有考虑完整的输入或记录数,apache-spark,Apache Spark,我的spark程序运行良好，当输入文件大小小于~2GB时，可以正确处理所有记录。当使用8GB运行时，同一程序不考虑所有输入记录，只处理90%的记录我尝试过更改Spark提交参数，但不起作用。请建议甚至Spark UI在“Input Size/records:”字段中也显示了较少的记录数 spark submit--部署模式客户端--主线程--执行器内存6G--执行器内核5--num executors 25--class com.test.spark.etc如何读取输入？如何比较输入和输入文

我的spark程序运行良好，当输入文件大小小于~2GB时，可以正确处理所有记录。当使用8GB运行时，同一程序不考虑所有输入记录，只处理90%的记录

我尝试过更改Spark提交参数，但不起作用。请建议

甚至Spark UI在“Input Size/records:”字段中也显示了较少的记录数

spark submit--部署模式客户端--主线程--执行器内存6G--执行器内核5--num executors 25--class com.test.spark.etc

如何读取输入？如何比较输入和输入文件本身中的记录？更多的代码…我的打字错误，是“不一致”而不是“一致”的问题，我现在已经纠正了。我们使用分隔符从文本文件读取输入，然后解析为字段。代码将使用field1在Hbase表中查找并获得相应的值，然后写入新文件。我不能将代码作为机密共享，但我可以将其转换为文字或伪代码。如何计算文件中的记录数以及Spark读取的内容？你用什么模块？Spark Streaming或Spark Core with RDDs？我正在Spark UI中检查有多少记录及其考虑的大小，并且在Spark作业完成后，我正在使用输入进行验证。另外，我正在对实际输入文件的记录计数执行“wc-l”。我正在使用带RDDs的Spark core。您如何读取该文件？你能显示用户界面吗？