Hive 配置单元CSV导入限制

Hive 配置单元CSV导入限制,hive,hiveql,Hive,Hiveql,我有一个包含大约330万行的大型csv文件,我已将其上载到Hive metastore并从中创建了一个表 然而,当我运行一个 从表中选择计数(*) 查询时,它只显示了大约170万行 我开过一家公司 从表中选择* 查询并以csv形式下载结果,该文件中只有大约170万行 您可以导入到配置单元并从中创建表的csv文件是否有大小限制 非常感谢任何提示。我建议再次检查您的文件,您所说的情况可能发生在许多情况下: 1.)文件中没有那么多记录 2.)有些行没有被新行分隔,这意味着记录正在合并。这就是为什么你得

我有一个包含大约330万行的大型csv文件,我已将其上载到Hive metastore并从中创建了一个表

然而,当我运行一个

从表中选择计数(*)

查询时,它只显示了大约170万行

我开过一家公司

从表中选择*

查询并以csv形式下载结果,该文件中只有大约170万行

您可以导入到配置单元并从中创建表的csv文件是否有大小限制


非常感谢任何提示。

我建议再次检查您的文件,您所说的情况可能发生在许多情况下:

1.)文件中没有那么多记录

2.)有些行没有被新行分隔,这意味着记录正在合并。这就是为什么你得到的记录越来越少


希望这有助于

你好,穆克什,谢谢你回复我。作为解决方法,我上传了几个较小的150万行块,创建了表,并在一个查询中将它们联合在一起,然后根据查询结果创建了一个表。根据查询结果创建的最终表具有正确的行数。我在sql server和记事本++中打开了该文件。它显示了每种情况下的正确行数。知道发生了什么吗?你是如何创建蜂巢表的?是通过配置单元命令行界面还是色调?我已经看到了使用色调从Hive Metastore导入或导出数据的一些限制,因此这是一种可能性。另外,您是否尝试在JobHistory或任何日志文件中查看作业?