Python 将HDFS(Hadoop文件系统)目录中的文件读入数据帧
我正在将一些分隔文件从配置单元查询生成到多个HDFS目录中。作为下一步,我希望将文件读入单个数据帧,以便应用标准的非分布式算法 在某种程度上,使用“hadoop dfs-copyTolocal”和本地文件系统操作是一个简单可行的解决方案,但是我正在寻找一种特别优雅的方法来加载数据,我将把它合并到我的标准实践中 理想溶液的一些特征:Python 将HDFS(Hadoop文件系统)目录中的文件读入数据帧,python,hadoop,pandas,hdfs,Python,Hadoop,Pandas,Hdfs,我正在将一些分隔文件从配置单元查询生成到多个HDFS目录中。作为下一步,我希望将文件读入单个数据帧,以便应用标准的非分布式算法 在某种程度上,使用“hadoop dfs-copyTolocal”和本地文件系统操作是一个简单可行的解决方案,但是我正在寻找一种特别优雅的方法来加载数据,我将把它合并到我的标准实践中 理想溶液的一些特征: 无需创建本地副本(谁喜欢清理?) 最小系统调用数 几行Python代码 看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题: 我无法对此进行评估,
看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题:
我无法对此进行评估,因为pydoop对编译有非常严格的要求,而且我的Hadoop版本有点过时 您可能想看看您是否打算以分布式方式组装查询结果?还是运行单个进程来生成组合帧?大概有多少数据?(总体形状)您可以使用
hadoop dfs-get/path/to/file-
将内容流式传输到stdout-虽然不优雅,但确实满足您的第一个理想要求(如果流错误,则不理想…)