Hive sqoop Import lastmodified提供重复记录。它是';新界合并
我面临着一个棘手的问题。我发现,当使用lastmodified时,旧文件和新文件将合并以删除重复文件。无论如何,在我的情况下,它没有发生Hive sqoop Import lastmodified提供重复记录。它是';新界合并,hive,sqoop,Hive,Sqoop,我面临着一个棘手的问题。我发现,当使用lastmodified时,旧文件和新文件将合并以删除重复文件。无论如何,在我的情况下,它没有发生 我用过: sqoop导入--连接“jdbc:mysql://:3306/”--用户名根-密码-表登录孔--配置单元导入--创建配置单元表--配置单元表登录孔--配置单元delims替换”“ 表已创建,数据已正确加载到/user/hive/warehouse位置 LoginRoleId LoginRole CreatedDate
- 我用过:
sqoop导入--连接“jdbc:mysql://:3306/”--用户名根-密码-表登录孔--配置单元导入--创建配置单元表--配置单元表登录孔--配置单元delims替换”“
/user/hive/warehouse
位置
LoginRoleId LoginRole CreatedDate ModifiedDate
1 admin1 2013-09-30 14:21:28 2013-09-30 16:03:39
2 admin2 2013-09-30 14:36:23 2013-09-30 15:53:19
3 admin3 2013-09-30 14:39:13 2013-09-30 14:39:13
4 admin5 2013-09-30 14:40:55 2013-09-30 14:40:55
- 现在我运行下面的查询,修改日期更新为2013-09-30 17:03:44'
update loginroles set ModifiedDate=now(),loginrole=“admin4”,其中LoginRoleID=4代码>
- 当我使用
Sqoop作业-exec mymodified运行作业时,如下所示
sqoop作业--create mymodified--import--connect“jdbc:mysql://:3306/”--username root--password password--table LoginRoles--hive import--hive table LoginRoles--hive delims replacement”“--检查列ModifiedDate--incremental lastmodified--last value“2013-09-30 16:03:39”
我看到蜂箱中总共有5行,如下所示
1 admin1 2013-09-30 14:21:28.0 2013-09-30 16:03:39.0
4 admin4 2013-09-30 14:40:55.0 2013-09-30 17:03:44.0
2 admin2 2013-09-30 14:36:23.0 2013-09-30 15:53:19.0
3 admin3 2013-09-30 14:39:13.0 2013-09-30 14:39:13.0
4 admin5 2013-09-30 14:40:55.0 2013-09-30 14:40:55.0
我确信我错过了一些重要而微妙的东西
使用的sqoop的版本详细信息
Sqoop 1.4.3-cdh4.3.0
git提交id 7a52f9aa97cba43aae8b700f7e93f97dcdb0b21a
jenkins于2013年5月27日(星期一)20:33:21 PDT编译而成,目前这种方法不起作用。我已经在cloudera谷歌集团发布了帖子,但目前还不起作用。我将不得不使用变通方法来创建临时文件夹并清理它们。下面的链接帮助我解决了这个问题
大家好,目前这种方法不起作用。我已经在cloudera谷歌集团发布了帖子,但目前还不起作用。我将不得不使用变通方法来创建临时文件夹并清理它们。