Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 数据集上的createOrReplaceTempView(viewName)和cache()之间有什么区别_Apache Spark_Apache Spark Dataset - Fatal编程技术网

Apache spark 数据集上的createOrReplaceTempView(viewName)和cache()之间有什么区别

Apache spark 数据集上的createOrReplaceTempView(viewName)和cache()之间有什么区别,apache-spark,apache-spark-dataset,Apache Spark,Apache Spark Dataset,它们都是为了快速访问数据集。两者之间的区别是什么?createOrReplaceTempView将数据帧注册为一个表,您可以使用绑定到注册它的SparkSession生命周期的SQL查询该表-因此名称的临时部分。但是,请注意,此方法不允许您实现任何性能改进 cache或persist标记在后续操作后要缓存的数据帧,使其在后续操作中的访问速度更快。数据帧,就像RDD一样,表示在底层分布式数据结构上执行的计算序列,即所谓的沿袭。每当您执行转换(例如:通过映射将函数应用于每个记录)时,系统都会返回一个

它们都是为了快速访问数据集。两者之间的区别是什么?

createOrReplaceTempView将数据帧注册为一个表,您可以使用绑定到注册它的SparkSession生命周期的SQL查询该表-因此名称的临时部分。但是,请注意,此方法不允许您实现任何性能改进

cache或persist标记在后续操作后要缓存的数据帧,使其在后续操作中的访问速度更快。数据帧,就像RDD一样,表示在底层分布式数据结构上执行的计算序列,即所谓的沿袭。每当您执行转换(例如:通过映射将函数应用于每个记录)时,系统都会返回一个更新的沿袭。每当您实际对数据帧执行一个操作时,必须执行沿袭的某种类型的计算,它每次都会重新执行,除非它已经被缓存并且因此可用

这意味着使用缓存或持久化将帮助您优化需要多次访问数据帧内容的情况。

createOrReplaceTempView将数据帧注册为一个表,您可以使用绑定到注册它的SparkSession生命周期的SQL查询该表-因此名称的临时部分。但是,请注意,此方法不允许您实现任何性能改进

cache或persist标记在后续操作后要缓存的数据帧,使其在后续操作中的访问速度更快。数据帧,就像RDD一样,表示在底层分布式数据结构上执行的计算序列,即所谓的沿袭。每当您执行转换(例如:通过映射将函数应用于每个记录)时,系统都会返回一个更新的沿袭。每当您实际对数据帧执行一个操作时,必须执行沿袭的某种类型的计算,它每次都会重新执行,除非它已经被缓存并且因此可用

这意味着使用缓存或持久化将帮助您优化需要多次访问数据帧内容的情况