Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/jsf-2/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 什么';spark.eventLog.dir和spark.history.fs.logDirectory之间的区别是什么?_Apache Spark - Fatal编程技术网

Apache spark 什么';spark.eventLog.dir和spark.history.fs.logDirectory之间的区别是什么?

Apache spark 什么';spark.eventLog.dir和spark.history.fs.logDirectory之间的区别是什么?,apache-spark,Apache Spark,在Spark中,事件日志目录和历史服务器日志目录之间有什么区别 spark.eventLog.dir hdfs:///var/log/spark/apps spark.history.fs.logDirectory hdfs:///var/log/spark/apps spark.eventLog.dir用于生成日志,而spark.history.fs.logDirectory用于spark history Server查找日志事件 来自Apache Spark的官方文档: spark.eve

在Spark中,事件日志目录和历史服务器日志目录之间有什么区别

spark.eventLog.dir hdfs:///var/log/spark/apps
spark.history.fs.logDirectory hdfs:///var/log/spark/apps

spark.eventLog.dir
用于生成日志,而
spark.history.fs.logDirectory
用于spark history Server查找日志事件

来自Apache Spark的官方文档:


spark.eventLog.dir
是记录spark事件的基本目录,如果spark.eventLog.enabled为true。在此基本目录中,Spark为每个应用程序创建一个子目录,并在此目录中记录特定于该应用程序的事件。用户可能希望将其设置为统一的位置,如HDFS目录,以便历史服务器可以读取历史文件

spark.history.fs.logDirectory
用于文件系统历史记录提供程序,即指向包含要加载的应用程序事件日志的目录的URL。这可以是本地文件://路径,也可以是HDFS路径hdfs://namenode/shared/spark-logs 或者Hadoop API支持的替代文件系统


请参阅。

它们是否应该始终相同?是的,请参阅必须将spark作业本身配置为记录事件,并将其记录到同一个共享的可写目录中。例如,如果服务器配置的日志目录为hdfs://namenode/shared/spark 日志,则客户端选项为:spark.eventLog.enabled true spark.eventLog.dirhdfs://namenode/shared/spark-logs“它们可以不同,否则就不会有两个变量。根据我的理解,如果
spark.eventLog.dir=dir1
spark.history.fs.logDirectory=dir2
,则当前spark的事件将写入dir1,而历史服务器从dir2读取数据(可能来自另一个spark安装)。也就是说,历史服务器不依赖于当前的spark安装,您可以指向包含历史数据(*.lz4文件)的任何文件夹。