Hadoop sqoop导入大量空行
我正在将一个表从mysql导入hive。该表有Hadoop sqoop导入大量空行,hadoop,hive,sqoop,Hadoop,Hive,Sqoop,我正在将一个表从mysql导入hive。该表有2115584行。在导入过程中,我看到 13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records. 但是当我对导入的表执行count(*)时,我看到它有49262250行。发生了什么事 更新:当指定了--direct时,导入可以正常工作。解决了这个问题。从sqoop用户手册: 如果数据库的行包含字符串字段,且其中存在配置单元的默认行分隔符(\n和\r个字符)或
2115584
行。在导入过程中,我看到
13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records.
但是当我对导入的表执行count(*)
时,我看到它有49262250行。发生了什么事
更新:当指定了--direct
时,导入可以正常工作。解决了这个问题。从sqoop用户手册:
如果数据库的行包含字符串字段,且其中存在配置单元的默认行分隔符(\n和\r个字符)或列分隔符(\01个字符),则配置单元在使用Sqoop导入的数据时将出现问题。您可以使用--hive drop import delims选项在导入时删除这些字符,以提供与hive兼容的文本数据
我刚刚指定了--hive-drop-import-delims
,它现在可以工作了。解决了。从sqoop用户手册:
如果数据库的行包含字符串字段,且其中存在配置单元的默认行分隔符(\n和\r个字符)或列分隔符(\01个字符),则配置单元在使用Sqoop导入的数据时将出现问题。您可以使用--hive drop import delims选项在导入时删除这些字符,以提供与hive兼容的文本数据
我刚刚指定了--hive-drop-import-delims
,它现在可以工作了