Apache spark ApacheSpark-MapReduce调试技巧_Apache Spark_Bigdata_Apache Kafka

Apache spark ApacheSpark-MapReduce调试技巧

apache-spark apache-kafka

Apache spark ApacheSpark-MapReduce调试技巧,apache-spark,bigdata,apache-kafka,Apache Spark,Bigdata,Apache Kafka,我正在尝试实现Kafka-Spark环境。我正在尝试调试MapReduce逻辑（用Java实现）。Spark submit步骤使得在我的算法中使用断点进行调试变得复杂。传入的实时数据模式非常复杂。模拟复杂的算法将是一个非常耗时的过程。更好的开发环境将帮助开发人员在实时流数据上验证map reduce逻辑请提出一些建议和窍门。是否可以使用IDE断点，或者使用Apache Spark进行远程调试。我认为如果您正在开发流式或批处理Spark应用程序，这并不重要。您可以始终使用intellij ide

我正在尝试实现Kafka-Spark环境。我正在尝试调试MapReduce逻辑（用Java实现）。Spark submit步骤使得在我的算法中使用断点进行调试变得复杂。传入的实时数据模式非常复杂。模拟复杂的算法将是一个非常耗时的过程。更好的开发环境将帮助开发人员在实时流数据上验证map reduce逻辑

请提出一些建议和窍门。是否可以使用IDE断点，或者使用Apache Spark进行远程调试。

我认为如果您正在开发流式或批处理Spark应用程序，这并不重要。您可以始终使用intellij idea对应用程序进行图形化调试

另请看此视频：。最后，如果您想根据数据模式调试应用程序的反应性，我建议使用Spark的内部工具来查看DAG是如何创建的，或者它是如何分布的

我自己正在做的一件事是使用spark调试工具，并根据我的应用程序执行图构建一个日志，其中包含我从探查器（iotop或iostat等常用操作系统工具）获得的附加信息，以查找我没有充分利用资源的地方

最终，您需要将这些信息结合在一起才能做出决策，而具有讽刺意味的是，它本身可能会成为一个数据密集型应用程序