Apache spark Databricks结果缓存
Databricks有结果缓存的概念吗?当我运行SQL查询时,它是将结果集缓存在某个地方以供次秒访问,还是我们只有Delta lake缓存?我在文档中找不到任何东西,在这个阶段我假设它不作为一个特性存在。有人可以澄清吗?在增量缓存中缓存指定的简单选择查询访问的数据。您可以通过提供列名列表来选择要缓存的列的子集,并通过提供谓词来选择行的子集。这使后续查询能够尽可能避免扫描原始文件。此结构仅适用于拼花地板桌子。也支持视图,但扩展查询仅限于简单查询 示例:Apache spark Databricks结果缓存,apache-spark,databricks,Apache Spark,Databricks,Databricks有结果缓存的概念吗?当我运行SQL查询时,它是将结果集缓存在某个地方以供次秒访问,还是我们只有Delta lake缓存?我在文档中找不到任何东西,在这个阶段我假设它不作为一个特性存在。有人可以澄清吗?在增量缓存中缓存指定的简单选择查询访问的数据。您可以通过提供列名列表来选择要缓存的列的子集,并通过提供谓词来选择行的子集。这使后续查询能够尽可能避免扫描原始文件。此结构仅适用于拼花地板桌子。也支持视图,但扩展查询仅限于简单查询 示例: CACHE SELECT * FROM bo
CACHE SELECT * FROM boxes
CACHE SELECT width, length FROM boxes WHERE height=3
参考:有关RDD缓存和DataRicks IO缓存之间的差异,请参阅
增量缓存通过使用快速中间数据格式在节点的本地存储中创建远程文件的副本来加速数据读取。每当必须从远程位置提取文件时,数据都会自动缓存。然后在本地执行相同数据的连续读取,从而显著提高读取速度
Databrick中有两种类型的缓存:
- 增量缓存
- apachespark缓存
希望这能有所帮助。据我所知,这是不可能的,文档中确实提到了清除缓存以提高性能,但与此特定问题无关。我希望这能进一步澄清未来的答案。databricks平台中有一个称为delta cache的概念。您可能需要检查,这与spark cache不同。增量缓存包含远程数据的本地副本。它可以提高各种查询的性能,但不能用于存储任意子查询的结果。请参阅。增量缓存与结果缓存非常不同。使用增量缓存,数据缓存在本地节点上。