Python fastparquet:如何禁用rle编码
我正在使用fastparquet将数据帧转换为拼花文件。它比我以前使用pyspark的方法快得多 我想用spark阅读这些拼花地板文件Python fastparquet:如何禁用rle编码,python,apache-spark,pyspark,parquet,Python,Apache Spark,Pyspark,Parquet,我正在使用fastparquet将数据帧转换为拼花文件。它比我以前使用pyspark的方法快得多 我想用spark阅读这些拼花地板文件 sqlCtx.read.parquet('/tmp/parquet/test.parquet') 我有几个问题设法解决了。我现在遇到的问题是RLE编码。当我尝试使用pyspark读取拼花地板文件时,出现以下java异常: Unsupported encoding: RLE 在使用fastparquetwrite方法时,是否有办法禁用RLE?这是fastpa
sqlCtx.read.parquet('/tmp/parquet/test.parquet')
我有几个问题设法解决了。我现在遇到的问题是RLE编码。当我尝试使用pyspark读取拼花地板文件时,出现以下java异常:
Unsupported encoding: RLE
在使用fastparquet
write
方法时,是否有办法禁用RLE?这是fastparquet中针对短整数('int8','int16','uint8','uint16')的优化。不幸的是,spark不支持完整的拼花地板规格
如果希望spark能够读取数据,则应首先转换32位或64位的整数列
已经有人考虑实施一种“兼容性模式”,在这种模式下,这些问题会以性能为代价而消失,但目前还没有具体的计划