Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark “如何调整”;spark.rpc.askTimeout“;?_Apache Spark_Spark Streaming - Fatal编程技术网

Apache spark “如何调整”;spark.rpc.askTimeout“;?

Apache spark “如何调整”;spark.rpc.askTimeout“;?,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我们有一个spark 1.6.1应用程序,它从两个卡夫卡主题获取输入,并将结果写入另一个卡夫卡主题。应用程序在第一个输入主题中接收一些大文件(大约1MB),在第二个输入主题中接收一些简单条件。如果条件满足,则文件将写入状态为的输出topic else(我们使用mapWithState) 该逻辑适用于较少(几百)个输入文件,但在org.apache.spark.rpc.RpcTimeoutException时失败,建议增加spark.rpc.askTimeout。从默认值(120秒)增加到300秒

我们有一个spark 1.6.1应用程序,它从两个卡夫卡主题获取输入,并将结果写入另一个卡夫卡主题。应用程序在第一个输入主题中接收一些大文件(大约1MB),在第二个输入主题中接收一些简单条件。如果条件满足,则文件将写入状态为的输出topic else(我们使用mapWithState)

该逻辑适用于较少(几百)个输入文件,但在
org.apache.spark.rpc.RpcTimeoutException
时失败,建议增加
spark.rpc.askTimeout
。从默认值(120秒)增加到300秒后,运行时间更长,但在1小时后以相同的错误崩溃。将值更改为500s后,作业正常运行了2个多小时

注意:我们在本地模式下运行spark作业,kafka也在机器中本地运行。另外,有时我会看到警告“没有足够的空间在内存中缓存rdd_2123_0!(目前计算为2.6 GB)”


现在,考虑到所有本地配置,300秒似乎足够大。但是,根据测试,如何达到理想的超时值,而不是仅仅使用500秒或更高,因为我看到崩溃的案例使用800秒,而建议使用60000秒?

我也面临着同样的问题,我发现在繁重的工作负载下,设置
spark.network.timeout
(它控制所有超时,也控制RPC超时)到800。现在它解决了我的问题。

我也遇到了同样的问题,你找到解决方案了吗?谢谢。我们的主要问题是对象的大小。即使在超时一天之后,超时仍然会出现!!!因为有大量的大对象。我们更改了设计,以检索有限的有用信息子集并保持对象的大小ect状态较小。