使用dask和pyarrow从hdfs读取csv文件

使用dask和pyarrow从hdfs读取csv文件,dask,pyarrow,Dask,Pyarrow,我们正在试用dask_纱线版本0.3.0(带有dask 0.18.2) 因为我使用的是pyarrow0.10.0版 我们正在尝试从hdfs读取csv文件-但是在运行dd.read\u csv('hdfs:///path/to/file.csv)因为它正在尝试使用hdfs3 ImportError:找不到共享库:libhdfs3.so 似乎可以选择使用pyarrow 正确的语法/配置是什么?尝试使用locate-l1libhdfs.so查找文件。在我的例子中,该文件位于/opt/mapr/hado

我们正在试用dask_纱线版本0.3.0(带有dask 0.18.2) 因为我使用的是
pyarrow
0.10.0版
我们正在尝试从hdfs读取csv文件-但是在运行
dd.read\u csv('hdfs:///path/to/file.csv)
因为它正在尝试使用hdfs3

ImportError:找不到共享库:libhdfs3.so

似乎可以选择使用pyarrow


正确的语法/配置是什么?

尝试使用
locate-l1libhdfs.so查找文件。在我的例子中,该文件位于
/opt/mapr/hadoop/hadoop-0.20.2/c++/Linux-amd64-64/lib

然后,将环境变量
ARROW\u LIBHDFS\u DIR
设置为此路径,重新启动Jupyter服务器。在本例中,我的命令如下所示:

ARROW\u LIBHDFS\u DIR=/opt/mapr/hadoop/hadoop-0.20.2/c++/Linux-amd64-64/lib-jupyter实验室——端口2250——无浏览器
接下来,在创建纱线簇时,将此变量作为辅助参数传递:

#创建一个集群,其中每个工作进程有两个内核和八个GiB的内存
簇=准绳(
工人环境={
#看https://github.com/dask/dask-yarn/pull/30#issuecomment-434001858
“ARROW_LIBHDFS_DIR”:“/opt/mapr/hadoop/hadoop-0.20.2/c++/Linux-amd64-64/lib”,
},
)
这为我解决了问题


(灵感来源)

这似乎是一个复制品。今后如果你不重复提问,我们将不胜感激。你的权利-我道歉。