Hive sqoop Import lastmodified提供重复记录。它是';新界合并

Hive sqoop Import lastmodified提供重复记录。它是';新界合并,hive,sqoop,Hive,Sqoop,我面临着一个棘手的问题。我发现,当使用lastmodified时,旧文件和新文件将合并以删除重复文件。无论如何,在我的情况下,它没有发生 我用过: sqoop导入--连接“jdbc:mysql://:3306/”--用户名根-密码-表登录孔--配置单元导入--创建配置单元表--配置单元表登录孔--配置单元delims替换”“ 表已创建,数据已正确加载到/user/hive/warehouse位置 LoginRoleId LoginRole CreatedDate

我面临着一个棘手的问题。我发现,当使用lastmodified时,旧文件和新文件将合并以删除重复文件。无论如何,在我的情况下,它没有发生

  • 我用过:

    sqoop导入--连接“jdbc:mysql://:3306/”--用户名根-密码-表登录孔--配置单元导入--创建配置单元表--配置单元表登录孔--配置单元delims替换”“

表已创建,数据已正确加载到
/user/hive/warehouse
位置

LoginRoleId LoginRole   CreatedDate             ModifiedDate

1       admin1  2013-09-30 14:21:28 2013-09-30 16:03:39
2       admin2  2013-09-30 14:36:23 2013-09-30 15:53:19
3       admin3  2013-09-30 14:39:13 2013-09-30 14:39:13
4       admin5  2013-09-30 14:40:55 2013-09-30 14:40:55
  • 现在我运行下面的查询,修改日期更新为2013-09-30 17:03:44'
update loginroles set ModifiedDate=now(),loginrole=“admin4”,其中LoginRoleID=4

  • 当我使用
    Sqoop作业-exec mymodified运行作业时,如下所示
sqoop作业--create mymodified--import--connect“jdbc:mysql://:3306/”--username root--password password--table LoginRoles--hive import--hive table LoginRoles--hive delims replacement”“--检查列ModifiedDate--incremental lastmodified--last value“2013-09-30 16:03:39”

我看到蜂箱中总共有5行,如下所示

1   admin1  2013-09-30 14:21:28.0   2013-09-30 16:03:39.0   
4   admin4  2013-09-30 14:40:55.0   2013-09-30 17:03:44.0
2   admin2  2013-09-30 14:36:23.0   2013-09-30 15:53:19.0
3   admin3  2013-09-30 14:39:13.0   2013-09-30 14:39:13.0
4   admin5  2013-09-30 14:40:55.0   2013-09-30 14:40:55.0
我确信我错过了一些重要而微妙的东西

使用的sqoop的版本详细信息
Sqoop 1.4.3-cdh4.3.0
git提交id 7a52f9aa97cba43aae8b700f7e93f97dcdb0b21a

jenkins于2013年5月27日(星期一)20:33:21 PDT编译而成,目前这种方法不起作用。我已经在cloudera谷歌集团发布了帖子,但目前还不起作用。我将不得不使用变通方法来创建临时文件夹并清理它们。下面的链接帮助我解决了这个问题


大家好,目前这种方法不起作用。我已经在cloudera谷歌集团发布了帖子,但目前还不起作用。我将不得不使用变通方法来创建临时文件夹并清理它们。