Hive 在配置单元中导入表后显示错误计数

Hive 在配置单元中导入表后显示错误计数,hive,sqoop,Hive,Sqoop,我在配置单元中从MS SQL Server导入了大约10个表。 但是,当我试图交叉检查配置单元中某个表中的记录时,我在运行查询select count*from tblName;时发现了更多记录 然后我放下了那张桌子,又把它导入了蜂箱。我在控制台日志中观察到检索到203条记录。 然后我再次尝试从tblName中选择count*;我的计数是298 我不明白为什么会这样。查询中是否有任何错误,或者是由于sqoop import的某些错误命令导致的 所有其他表格记录都可以 请帮我解决这个问题。我从邮件

我在配置单元中从MS SQL Server导入了大约10个表。 但是,当我试图交叉检查配置单元中某个表中的记录时,我在运行查询select count*from tblName;时发现了更多记录

然后我放下了那张桌子,又把它导入了蜂箱。我在控制台日志中观察到检索到203条记录。 然后我再次尝试从tblName中选择count*;我的计数是298

我不明白为什么会这样。查询中是否有任何错误,或者是由于sqoop import的某些错误命令导致的

所有其他表格记录都可以


请帮我解决这个问题。

我从邮件列表中得到了这个问题的解决方案,我想与大家分享。 他们的答复如下:

我们在过去也遇到过类似的问题-配置单元中的表中的行数似乎比sqoop报告导入的行数多,并且实际上在数据库中是可用的

我们这边描述的问题是导出数据中的错误字符导致导出的测试CSV文件中的行中断。例如,我们的一些行包含具有新行字符的数据。由于将两个导出行拆分为更多行,因此配置单元行数似乎大于导入行数。您可能遇到类似的问题。我们已经通过使用参数-hive drop import delims解决了这个问题,或者您也可以使用-hive delims replacement。对于语义和用法,请考虑查看手册:

谢谢