Python和Hadoop-使用Python直接获取数据并将数据写入hdfs?

Python和Hadoop-使用Python直接获取数据并将数据写入hdfs?,python,hadoop,Python,Hadoop,我想每天从雅虎/谷歌财经获取有关股票eod价格的数据。这些价格应直接存储在HDFS文件中 稍后我可以在它上面创建外部表(使用HIVE)并用于进一步的分析 所以,我不是在寻找基本的MapReduce,因为我没有任何这样的输入文件。 python中是否有可以在Hadoop中写入数据的连接器?首先将数据转储到本地文件中。然后找到将文件上载到HDFS的方法 如果您是在“边缘节点”(即Linux设备)上运行作业 不是群集的一部分,但已安装所有Hadoop客户端 并进行了配置),然后就有了良好的旧HDFS

我想每天从雅虎/谷歌财经获取有关股票eod价格的数据。这些价格应直接存储在HDFS文件中

稍后我可以在它上面创建外部表(使用HIVE)并用于进一步的分析

所以,我不是在寻找基本的MapReduce,因为我没有任何这样的输入文件。
python中是否有可以在Hadoop中写入数据的连接器?

首先将数据转储到本地文件中。然后找到将文件上载到HDFS的方法

  • 如果您是在“边缘节点”(即Linux设备)上运行作业 不是群集的一部分,但已安装所有Hadoop客户端 并进行了配置),然后就有了良好的旧HDFS命令行 接口
hdfs-dfs-put data.txt/user/johndoe/some/hdfs/dir/

  • 如果您在其他任何地方运行作业,请使用HTTP库(或良好的旧
    curl
    命令行)连接到HDFS REST服务——可能取决于集群的设置方式——并使用PUT请求上载文件
http://namenode:port/webhdfs/v1/user/johndoe/some/hdfs/dir/data.txt?op=CREATE&overwrite=false

(当然还有“data.txt”的内容作为有效负载)


顺便说一句:在对HA群集使用REST服务时,必须调用每个NameNode,直到找到活动的。顺便说一句,在对安全群集取消REST服务时,必须设置Kerberos SPNEGO身份验证,并在会话期间选择性地存储Hadoop委派令牌。