Hadoop 使用Sqoop、HDFS和Hive的最佳实践

Hadoop 使用Sqoop、HDFS和Hive的最佳实践,hadoop,hive,hdfs,sqoop,Hadoop,Hive,Hdfs,Sqoop,我必须使用sqoop将mysql数据库中的所有表导入hdfs和hive中的外部表(无过滤器,结构相同) 在import中,我想带来: 现有表的新数据 已更新现有表的数据(仅使用id列) 在mysql中创建的新表(y用于在配置单元中创建外部表) 然后创建一个sqoop作业来自动完成这一切 (我有一个mysql数据库,大约有60个表,随着每个新客户机投入生产,会创建一个新表。因此我需要sqoop尽可能自动地工作) 为导入所有表而执行的第一个命令是: sqoop导入所有表 --连接jdbc:mys

我必须使用
sqoop
将mysql数据库中的所有表导入
hdfs
hive
中的
外部表(无过滤器,结构相同)

在import中,我想带来:

  • 现有表的新数据
  • 已更新现有表的数据(仅使用id列)
  • 在mysql中创建的新表(y用于在配置单元中创建外部表)
然后创建一个
sqoop作业
来自动完成这一切

(我有一个
mysql
数据库,大约有60个表,随着每个新客户机投入生产,会创建一个新表。因此我需要
sqoop
尽可能自动地工作)

为导入所有表而执行的第一个命令是:

sqoop导入所有表
--连接jdbc:mysql://IP/db_name 
--用户名用户
--密码通行证
--仓库目录/user/hdfs/db\u名称
-m 1

这里说在
hive
中添加了对创建外部表的支持,但我没有找到关于上述命令的文档或示例

sqoop
中可以使用哪些最佳实践 所有来自
mysql
数据库的更新,并传递到
hdfs
hive

任何想法都是好的

提前谢谢

编辑:外部配置单元表的独家新闻和支持(SQOOP-816)仍然没有解决