Sql server 通过Sqoop将数据从SQL server导入配置单元的最佳实践

Sql server 通过Sqoop将数据从SQL server导入配置单元的最佳实践,sql-server,hive,sqoop,cloudera-cdh,data-import,Sql Server,Hive,Sqoop,Cloudera Cdh,Data Import,我们正在努力通过Sqoop将数据从MS SQL Server导入到配置单元。如果我们使用增量&追加模式(这是必需的),那么我们需要指定上次插入的行id的--last值 我必须将大约100个表更新到配置单元中 保存所有表的行id值并在sqoop--last value命令中指定的做法是什么 为什么Sqoop本身不检查源表和目标表的行id,最后更新目标表最后一行id值之前的行 如果我为配置单元表中的所有表保存行id的最后一个值,并希望在Sqoop作业中使用这些值,那么这怎么可能呢 综上所述,我希望自

我们正在努力通过Sqoop将数据从MS SQL Server导入到配置单元。如果我们使用增量&追加模式(这是必需的),那么我们需要指定上次插入的行id的--last值

我必须将大约100个表更新到配置单元中

  • 保存所有表的行id值并在sqoop--last value命令中指定的做法是什么

  • 为什么Sqoop本身不检查源表和目标表的行id,最后更新目标表最后一行id值之前的行

  • 如果我为配置单元表中的所有表保存行id的最后一个值,并希望在Sqoop作业中使用这些值,那么这怎么可能呢

  • 综上所述,我希望自动化数据导入作业,这样就不必每天为每个表数据导入手动提供值

    有什么建议吗


    感谢

    RTFM,特别是第10-11-12章的警告:Sqoop 1“metastore”是一个非常非常丑陋的东西,它使用了一个不推荐使用的HSQLDB版本(甚至不支持备份,恶心),并自豪地宣称它的元数据是
    版本(null)
    (即甚至不是beta版)