Caching 缓存与临时视图
我有一个拼花地板文件,我在我的应用程序中至少阅读了4-5次。我想知道最有效的方法是什么 备选案文1。在写入拼花地板文件时,将其读回数据集并调用缓存。我假设通过立即读取,我可能会使用一些现有的hdfs/spark缓存作为写入过程的一部分 备选案文2。在我的应用程序中,当我第一次需要数据集时,在读取数据集后将其缓存 备选案文3。在编写拼花地板文件时,在完成后创建一个临时视图。在所有后续使用中,请使用视图 我也不太清楚从tempview和parquet数据集中读取数据的效率 数据集不能全部放入内存。您应该缓存数据集(选项2)Caching 缓存与临时视图,caching,apache-spark,parquet,Caching,Apache Spark,Parquet,我有一个拼花地板文件,我在我的应用程序中至少阅读了4-5次。我想知道最有效的方法是什么 备选案文1。在写入拼花地板文件时,将其读回数据集并调用缓存。我假设通过立即读取,我可能会使用一些现有的hdfs/spark缓存作为写入过程的一部分 备选案文2。在我的应用程序中,当我第一次需要数据集时,在读取数据集后将其缓存 备选案文3。在编写拼花地板文件时,在完成后创建一个临时视图。在所有后续使用中,请使用视图 我也不太清楚从tempview和parquet数据集中读取数据的效率 数据集不能全部放入内存。您
- 写入磁盘在内存格式上不会比Spark有任何改进
- 临时视图不缓存李>