Hadoop 在蜂箱中,它是;“加载数据本地输入路径”;覆盖现有数据还是追加?

Hadoop 在蜂箱中,它是;“加载数据本地输入路径”;覆盖现有数据还是追加?,hadoop,hbase,hdfs,hive,Hadoop,Hbase,Hdfs,Hive,我希望在一个cron上运行一个导入到Hive的程序,并且只希望使用 “将数据本地inpath'/tmp/data/x'加载到表x”加载到表中就足够了 后续命令是否会覆盖表中已有的内容?或者它会追加吗?在处理蜂巢时,此站点是您的朋友。:) 处理将数据加载到配置单元的页面是 那一页说 如果使用覆盖关键字,则 目标表的内容(或 分区)将被删除并删除 替换为引用的文件 文件路径。否则,文件将被引用 按文件路径将被添加到 桌子请注意,如果目标表 (或分区)已经有一个文件 谁的名字和其他名字冲突 文件路径中

我希望在一个cron上运行一个导入到Hive的程序,并且只希望使用

“将数据本地inpath'/tmp/data/x'加载到表x”加载到表中就足够了

后续命令是否会覆盖表中已有的内容?或者它会追加吗?

在处理蜂巢时,此站点是您的朋友。:)

处理将数据加载到配置单元的页面是 那一页说

如果使用覆盖关键字,则 目标表的内容(或 分区)将被删除并删除 替换为引用的文件 文件路径。否则,文件将被引用 按文件路径将被添加到 桌子请注意,如果目标表 (或分区)已经有一个文件 谁的名字和其他名字冲突 文件路径中包含的文件名-然后 现有文件将被替换 使用新文件


在您的情况下,您没有使用
OVERWRITE
关键字,因此文件将添加到表中。(除非它们是相同的文件,在这种情况下它们被覆盖)

如果使用覆盖关键字,则目标表(或分区)的内容将被删除并替换为filepath引用的文件;否则,filepath引用的文件将添加到表中。

假设我每天都创建文件,例如20130808.csv,并且必须重新导入当天的数据。然后我所要做的就是再次导入具有相同文件名20130808.csv的相同文件,并将更新版本添加到表中?或者我必须自己通过某种查询删除行吗?只是为了更新,如果你们使用相同的文件加载,一次又一次,这将一次又一次地添加到表中,并不是说你们会得到覆盖文件,而是你们将在下一次加载时使用相同的文件。小心点。