Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将HDFS(Hadoop文件系统)目录中的文件读入数据帧_Python_Hadoop_Pandas_Hdfs - Fatal编程技术网

Python 将HDFS(Hadoop文件系统)目录中的文件读入数据帧

Python 将HDFS(Hadoop文件系统)目录中的文件读入数据帧,python,hadoop,pandas,hdfs,Python,Hadoop,Pandas,Hdfs,我正在将一些分隔文件从配置单元查询生成到多个HDFS目录中。作为下一步,我希望将文件读入单个数据帧,以便应用标准的非分布式算法 在某种程度上,使用“hadoop dfs-copyTolocal”和本地文件系统操作是一个简单可行的解决方案,但是我正在寻找一种特别优雅的方法来加载数据,我将把它合并到我的标准实践中 理想溶液的一些特征: 无需创建本地副本(谁喜欢清理?) 最小系统调用数 几行Python代码 看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题: 我无法对此进行评估,

我正在将一些分隔文件从配置单元查询生成到多个HDFS目录中。作为下一步,我希望将文件读入单个数据帧,以便应用标准的非分布式算法

在某种程度上,使用“hadoop dfs-copyTolocal”和本地文件系统操作是一个简单可行的解决方案,但是我正在寻找一种特别优雅的方法来加载数据,我将把它合并到我的标准实践中

理想溶液的一些特征:

  • 无需创建本地副本(谁喜欢清理?)
  • 最小系统调用数
  • 几行Python代码

  • 看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题:


    我无法对此进行评估,因为pydoop对编译有非常严格的要求,而且我的Hadoop版本有点过时

    您可能想看看您是否打算以分布式方式组装查询结果?还是运行单个进程来生成组合帧?大概有多少数据?(总体形状)您可以使用
    hadoop dfs-get/path/to/file-
    将内容流式传输到stdout-虽然不优雅,但确实满足您的第一个理想要求(如果流错误,则不理想…)