使用dask和pyarrow从hdfs读取csv文件
我们正在试用dask_纱线版本0.3.0(带有dask 0.18.2) 因为我使用的是使用dask和pyarrow从hdfs读取csv文件,dask,pyarrow,Dask,Pyarrow,我们正在试用dask_纱线版本0.3.0(带有dask 0.18.2) 因为我使用的是pyarrow0.10.0版 我们正在尝试从hdfs读取csv文件-但是在运行dd.read\u csv('hdfs:///path/to/file.csv)因为它正在尝试使用hdfs3 ImportError:找不到共享库:libhdfs3.so 似乎可以选择使用pyarrow 正确的语法/配置是什么?尝试使用locate-l1libhdfs.so查找文件。在我的例子中,该文件位于/opt/mapr/hado
pyarrow
0.10.0版我们正在尝试从hdfs读取csv文件-但是在运行
dd.read\u csv('hdfs:///path/to/file.csv)
因为它正在尝试使用hdfs3
ImportError:找不到共享库:libhdfs3.so
似乎可以选择使用pyarrow
正确的语法/配置是什么?尝试使用
locate-l1libhdfs.so查找文件。在我的例子中,该文件位于/opt/mapr/hadoop/hadoop-0.20.2/c++/Linux-amd64-64/lib
下
然后,将环境变量ARROW\u LIBHDFS\u DIR
设置为此路径,重新启动Jupyter服务器。在本例中,我的命令如下所示:
ARROW\u LIBHDFS\u DIR=/opt/mapr/hadoop/hadoop-0.20.2/c++/Linux-amd64-64/lib-jupyter实验室——端口2250——无浏览器
接下来,在创建纱线簇时,将此变量作为辅助参数传递:
#创建一个集群,其中每个工作进程有两个内核和八个GiB的内存
簇=准绳(
工人环境={
#看https://github.com/dask/dask-yarn/pull/30#issuecomment-434001858
“ARROW_LIBHDFS_DIR”:“/opt/mapr/hadoop/hadoop-0.20.2/c++/Linux-amd64-64/lib”,
},
)
这为我解决了问题
(灵感来源)这似乎是一个复制品。今后如果你不重复提问,我们将不胜感激。你的权利-我道歉。