Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop将本地示例复制到HDFS_Hadoop_Hdfs - Fatal编程技术网

Hadoop将本地示例复制到HDFS

Hadoop将本地示例复制到HDFS,hadoop,hdfs,Hadoop,Hdfs,我是Hadoop新手,我正在跟随一些基本教程进入Hadoop。 我下面的一个教程希望我用Python编写Hadoop MapReduce作业,我已经成功地完成了所有工作,以下是总结的步骤: 编写mapper.py和reducer.py脚本 将本地示例数据复制到hdfs 运行MapReduce作业 我的问题是:如果我必须频繁修改数据,然后运行MapReduce作业,该怎么办?我是否每次都可以在hdfs上加载修改后的数据,还是有办法直接在hdfs上修改? 谢谢每次修改数据时都必须将其上载到HDFS。

我是Hadoop新手,我正在跟随一些基本教程进入Hadoop。 我下面的一个教程希望我用Python编写Hadoop MapReduce作业,我已经成功地完成了所有工作,以下是总结的步骤:

编写mapper.py和reducer.py脚本 将本地示例数据复制到hdfs 运行MapReduce作业 我的问题是:如果我必须频繁修改数据,然后运行MapReduce作业,该怎么办?我是否每次都可以在hdfs上加载修改后的数据,还是有办法直接在hdfs上修改?
谢谢

每次修改数据时都必须将其上载到HDFS。另一种选择是使用HBASE,它允许附加/更新现有数据。

这听起来不像是明智地使用Hadoop。Hadoop用于分析相对静态的数据,即不更改数据的地方。它基本上是一次写,多次读的原理。文件一旦创建、写入和关闭,就不需要更改。他们的观点是这一理念背后的一个重要原因,即简化数据一致性问题并实现高吞吐量数据访问

回到您的实际问题,是的,每次数据发生变化时,您都需要上传数据。但为什么您会如此频繁地更改数据?只需继续将更新的数据存储到HDFS中即可。毕竟Hadoop是用来处理大数据的