Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala Spark-WARN HDFSBackedStateStoreProvider:版本1的状态不为';不存在于加载的映射中_Scala_Apache Spark_Hdfs - Fatal编程技术网

Scala Spark-WARN HDFSBackedStateStoreProvider:版本1的状态不为';不存在于加载的映射中

Scala Spark-WARN HDFSBackedStateStoreProvider:版本1的状态不为';不存在于加载的映射中,scala,apache-spark,hdfs,Scala,Apache Spark,Hdfs,我目前正在处理Spark结构化流媒体作业,似乎在每个批次间隔我都会收到警告: 警告HDFSBackedStateStoreProvider:loadedMaps中不存在版本N的状态。如果需要,读取快照文件和增量文件…请注意,对于第一批开始查询,这是正常的。-其中N在每批上递增 我看到在本地模式(检查点被禁用)和在纱线上运行(EMR)时,日志中充斥着这些信息 问题是:可以安全地忽略这一点吗?打开调试日志记录HDFSBackedStateStoreProvider表示读取快照和增量文件需要花费时间,

我目前正在处理Spark结构化流媒体作业,似乎在每个批次间隔我都会收到警告:

警告HDFSBackedStateStoreProvider:loadedMaps中不存在版本N的状态。如果需要,读取快照文件和增量文件…请注意,对于第一批开始查询,这是正常的。
-其中N在每批上递增

我看到在本地模式(检查点被禁用)和在纱线上运行(EMR)时,日志中充斥着这些信息

问题是:可以安全地忽略这一点吗?打开调试日志记录HDFSBackedStateStoreProvider表示读取快照和增量文件需要花费时间,因此我有一些担心

这是我看起来最小的SparkConf

val sparkConf:sparkConf={
val conf=new SparkConf()
.setAppName(“结构化流媒体”)
.set(“spark.sql.autoBroadcastJoinThreshold”,“-1”)
.set(“火花、推测”、“错误”)
如果(应用程序isLocal)
形态
.set(“spark.cassandra.output.consistency.level”,“LOCAL_ONE”)
.setMaster(“本地[*]”)
其他的
形态
.set(“spark.cassandra.connection.host”,PropertyLoader.getProperty(“cassandra.contactPoints”))
.set(“spark.cassandra.connection.local_dc”,PropertyLoader.getProperty(“cassandra.localDC”))
.set(“spark.cassandra.connection.ssl.enabled”,“true”)
.set(“spark.cassandra.connection.ssl.trustStore.path”,PropertyLoader.truststorePath)
.set(“spark.cassandra.connection.ssl.trustStore.password”),PropertyLoader.getProperty(“cassandra.truststorePassword”))
.set(“spark.cassandra.auth.username”,PropertyLoader.getProperty(“cassandra.username”))
.set(“spark.cassandra.auth.password”),PropertyLoader.getProperty(“cassandra.password”))
.set(“spark.executor.logs.rolling.MaxRetainedFile”,“20”)
.set(“spark.executor.logs.rolling.maxSize”,“524288000”)
.set(“spark.executor.logs.rolling.strategy”、“size”)
.set(“spark.cleaner.referenceTracking.cleanscheckpoints”,“true”)
.set(“spark.sql.streaming.metricsEnabled”,“true”)
.setJars(数组[String](SparkContext.jarOfClass(getClass.get))

您能提供您正在使用的代码的更多详细信息吗?我在Delta Lake的更新模式下的foreachBatch操作中遇到类似错误。在上面的代码中,我只看到了
sparkConf
我需要一段时间才能真正找到与此警告相关的代码。但是,是的,我在更新模式IIRC中使用了foreachBatch。