Apache spark ApacheSpark-MapReduce调试技巧

Apache spark ApacheSpark-MapReduce调试技巧,apache-spark,bigdata,apache-kafka,Apache Spark,Bigdata,Apache Kafka,我正在尝试实现Kafka-Spark环境。我正在尝试调试MapReduce逻辑(用Java实现)。Spark submit步骤使得在我的算法中使用断点进行调试变得复杂。传入的实时数据模式非常复杂。模拟复杂的算法将是一个非常耗时的过程。更好的开发环境将帮助开发人员在实时流数据上验证map reduce逻辑 请提出一些建议和窍门。是否可以使用IDE断点,或者使用Apache Spark进行远程调试。我认为如果您正在开发流式或批处理Spark应用程序,这并不重要。您可以始终使用intellij ide

我正在尝试实现Kafka-Spark环境。我正在尝试调试MapReduce逻辑(用Java实现)。Spark submit步骤使得在我的算法中使用断点进行调试变得复杂。传入的实时数据模式非常复杂。模拟复杂的算法将是一个非常耗时的过程。更好的开发环境将帮助开发人员在实时流数据上验证map reduce逻辑


请提出一些建议和窍门。是否可以使用IDE断点,或者使用Apache Spark进行远程调试。

我认为如果您正在开发流式或批处理Spark应用程序,这并不重要。您可以始终使用intellij idea对应用程序进行图形化调试

另请看此视频:。最后,如果您想根据数据模式调试应用程序的反应性,我建议使用Spark的内部工具来查看DAG是如何创建的,或者它是如何分布的

我自己正在做的一件事是使用spark调试工具,并根据我的应用程序执行图构建一个日志,其中包含我从探查器(iotop或iostat等常用操作系统工具)获得的附加信息,以查找我没有充分利用资源的地方

最终,您需要将这些信息结合在一起才能做出决策,而具有讽刺意味的是,它本身可能会成为一个数据密集型应用程序