Python fastparquet:如何禁用rle编码

Python fastparquet:如何禁用rle编码,python,apache-spark,pyspark,parquet,Python,Apache Spark,Pyspark,Parquet,我正在使用fastparquet将数据帧转换为拼花文件。它比我以前使用pyspark的方法快得多 我想用spark阅读这些拼花地板文件 sqlCtx.read.parquet('/tmp/parquet/test.parquet') 我有几个问题设法解决了。我现在遇到的问题是RLE编码。当我尝试使用pyspark读取拼花地板文件时,出现以下java异常: Unsupported encoding: RLE 在使用fastparquetwrite方法时,是否有办法禁用RLE?这是fastpa

我正在使用fastparquet将数据帧转换为拼花文件。它比我以前使用pyspark的方法快得多

我想用spark阅读这些拼花地板文件

 sqlCtx.read.parquet('/tmp/parquet/test.parquet')
我有几个问题设法解决了。我现在遇到的问题是RLE编码。当我尝试使用pyspark读取拼花地板文件时,出现以下java异常:

Unsupported encoding: RLE

在使用fastparquet
write
方法时,是否有办法禁用RLE?

这是fastparquet中针对短整数('int8','int16','uint8','uint16')的优化。不幸的是,spark不支持完整的拼花地板规格

如果希望spark能够读取数据,则应首先转换32位或64位的整数列

已经有人考虑实施一种“兼容性模式”,在这种模式下,这些问题会以性能为代价而消失,但目前还没有具体的计划