使用dask和pyarrow从hdfs读取csv文件_Dask_Pyarrow

使用dask和pyarrow从hdfs读取csv文件

dask

使用dask和pyarrow从hdfs读取csv文件,dask,pyarrow,Dask,Pyarrow,我们正在试用dask_纱线版本0.3.0（带有dask 0.18.2）因为我使用的是pyarrow0.10.0版我们正在尝试从hdfs读取csv文件-但是在运行dd.read\u csv（'hdfs:///path/to/file.csv）因为它正在尝试使用hdfs3 ImportError:找不到共享库：libhdfs3.so 似乎可以选择使用pyarrow 正确的语法/配置是什么？尝试使用locate-l1libhdfs.so查找文件。在我的例子中，该文件位于/opt/mapr/hado

我们正在试用dask_纱线版本0.3.0（带有dask 0.18.2）因为我使用的是

pyarrow

0.10.0版
我们正在尝试从hdfs读取csv文件-但是在运行

dd.read\u csv（'hdfs:///path/to/file.csv）

因为它正在尝试使用hdfs3

ImportError:找不到共享库：libhdfs3.so

似乎可以选择使用pyarrow

正确的语法/配置是什么？

尝试使用

locate-l1libhdfs.so查找文件。在我的例子中，该文件位于/opt/mapr/hadoop/hadoop-0.20.2/c++/Linux-amd64-64/lib
下
然后，将环境变量ARROW\u LIBHDFS\u DIR
设置为此路径，重新启动Jupyter服务器。在本例中，我的命令如下所示：
ARROW\u LIBHDFS\u DIR=/opt/mapr/hadoop/hadoop-0.20.2/c++/Linux-amd64-64/lib-jupyter实验室——端口2250——无浏览器

接下来，在创建纱线簇时，将此变量作为辅助参数传递：
#创建一个集群，其中每个工作进程有两个内核和八个GiB的内存
簇=准绳(
工人环境={
#看https://github.com/dask/dask-yarn/pull/30#issuecomment-434001858
“ARROW_LIBHDFS_DIR”：“/opt/mapr/hadoop/hadoop-0.20.2/c++/Linux-amd64-64/lib”，
},
)

这为我解决了问题
（灵感来源）
这似乎是一个复制品。今后如果你不重复提问，我们将不胜感激。你的权利-我道歉。