Hadoop将本地示例复制到HDFS_Hadoop_Hdfs

Hadoop将本地示例复制到HDFS

hadoop

Hadoop将本地示例复制到HDFS,hadoop,hdfs,Hadoop,Hdfs,我是Hadoop新手，我正在跟随一些基本教程进入Hadoop。我下面的一个教程希望我用Python编写Hadoop MapReduce作业，我已经成功地完成了所有工作，以下是总结的步骤：编写mapper.py和reducer.py脚本将本地示例数据复制到hdfs 运行MapReduce作业我的问题是：如果我必须频繁修改数据，然后运行MapReduce作业，该怎么办？我是否每次都可以在hdfs上加载修改后的数据，还是有办法直接在hdfs上修改？谢谢每次修改数据时都必须将其上载到HDFS。

我是Hadoop新手，我正在跟随一些基本教程进入Hadoop。我下面的一个教程希望我用Python编写Hadoop MapReduce作业，我已经成功地完成了所有工作，以下是总结的步骤：

编写mapper.py和reducer.py脚本将本地示例数据复制到hdfs 运行MapReduce作业我的问题是：如果我必须频繁修改数据，然后运行MapReduce作业，该怎么办？我是否每次都可以在hdfs上加载修改后的数据，还是有办法直接在hdfs上修改？

谢谢

每次修改数据时都必须将其上载到HDFS。另一种选择是使用HBASE，它允许附加/更新现有数据。

这听起来不像是明智地使用Hadoop。Hadoop用于分析相对静态的数据，即不更改数据的地方。它基本上是一次写，多次读的原理。文件一旦创建、写入和关闭，就不需要更改。他们的观点是这一理念背后的一个重要原因，即简化数据一致性问题并实现高吞吐量数据访问

回到您的实际问题，是的，每次数据发生变化时，您都需要上传数据。但为什么您会如此频繁地更改数据？只需继续将更新的数据存储到HDFS中即可。毕竟Hadoop是用来处理大数据的