Python 将HDFS（Hadoop文件系统）目录中的文件读入数据帧_Python_Hadoop_Pandas_Hdfs

Python 将HDFS（Hadoop文件系统）目录中的文件读入数据帧

python hadoop pandas

Python 将HDFS（Hadoop文件系统）目录中的文件读入数据帧,python,hadoop,pandas,hdfs,Python,Hadoop,Pandas,Hdfs,我正在将一些分隔文件从配置单元查询生成到多个HDFS目录中。作为下一步，我希望将文件读入单个数据帧，以便应用标准的非分布式算法在某种程度上，使用“hadoop dfs-copyTolocal”和本地文件系统操作是一个简单可行的解决方案，但是我正在寻找一种特别优雅的方法来加载数据，我将把它合并到我的标准实践中理想溶液的一些特征：无需创建本地副本（谁喜欢清理？）最小系统调用数几行Python代码看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题：我无法对此进行评估，

我正在将一些分隔文件从配置单元查询生成到多个HDFS目录中。作为下一步，我希望将文件读入单个数据帧，以便应用标准的非分布式算法

在某种程度上，使用“hadoop dfs-copyTolocal”和本地文件系统操作是一个简单可行的解决方案，但是我正在寻找一种特别优雅的方法来加载数据，我将把它合并到我的标准实践中

理想溶液的一些特征：

无需创建本地副本（谁喜欢清理？）

最小系统调用数

几行Python代码

看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题：

我无法对此进行评估，因为pydoop对编译有非常严格的要求，而且我的Hadoop版本有点过时

您可能想看看您是否打算以分布式方式组装查询结果？还是运行单个进程来生成组合帧？大概有多少数据？（总体形状）您可以使用

hadoop dfs-get/path/to/file-

将内容流式传输到stdout-虽然不优雅，但确实满足您的第一个理想要求（如果流错误，则不理想…）