dask数据帧集_索引抛出错误
我有一个从HDFS上的拼花文件创建的dask数据帧。 当使用api:set_index创建设置索引时,它会失败,并出现以下错误 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/dask/dataframe/shuffle.py”,第64行,在集合索引中 分段、大小、分钟、最大值=base.compute(分段、大小、分钟、最大值) 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/dask/base.py”,第206行,在compute中 结果=获取(dsk、键、**kwargs) get中的文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/distributed/client.py”,第1949行 结果=自聚集(打包,异步=异步) 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/distributed/client.py”,第1391行,位于聚集区 异步=异步) 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/distributed/client.py”,第561行,同步 返回同步(self.loop、func、*args、**kwargs) 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/distributed/utils.py”,第241行,同步 六、重放(*错误[0]) 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site-packages/six.py”,第693行,重新登录 增值 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/distributed/utils.py”,第229行,f 结果[0]=收益率make_coro() 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/tornado/gen.py”,第1055行,运行中 value=future.result() 结果文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/tornado/concurrent.py”,第238行 提升exc信息(自身exc信息) 文件“”,第4行,在raise_exc_信息中 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/tornado/gen.py”,第1063行,运行中 屈服=自我生成抛出(*exc_信息) 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/distributed/client.py”,第1269行,在 (回溯) 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site-packages/six.py”,第692行,重新登录 通过_回溯(tb)提升值 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/dask/dataframe/io/parquet.py”,第144行,在“读取”拼花地板行中 打开=打开,分配=视图,方案=方案) TypeError:read_row_group_file()获得意外的关键字参数“scheme” 有人能告诉我这个错误的原因和解决方法吗。解决方案 将fastparquet升级至0.1.3版 细节dask数据帧集_索引抛出错误,dask,dask-distributed,Dask,Dask Distributed,我有一个从HDFS上的拼花文件创建的dask数据帧。 当使用api:set_index创建设置索引时,它会失败,并出现以下错误 文件“/ebs/d1/agent/conda/envs/py361/lib/python3.6/site packages/dask/dataframe/shuffle.py”,第64行,在集合索引中 分段、大小、分钟、最大值=base.compute(分段、大小、分钟、最大值) 文件“/ebs/d1/agent/conda/envs/py361/lib/python3
示例中使用的Dask 0.15.4包括,它将参数
scheme
添加到read\u row\u group\u file()
。对于0.1.3之前的fastparquet版本,这会引发一个错误。通过将dask从0.15.4降级到0.15.3并从1.19.2分发到1.19.1,该问题得以解决。