Hadoop 具有不同行数的CSV文件和外部表

Hadoop 具有不同行数的CSV文件和外部表,hadoop,hive,hdfs,Hadoop,Hive,Hdfs,我正在通过配置单元中的外部表在表中加载csv文件。csv有1000行。但是当我在上面创建一个外部表时,该表显示了1219行。除了1000个正确的行之外,表中还有219个额外的行,所有列中都有空值。任何人都可以提出任何建议,以避免额外的219行?我从配置单元中的表命令中选择count(*)获得的计数。该文件是hdfs格式的 我已经尝试了记事本的EOL功能++ 这是我的create语句 Create external table if not exists movie_data_sample(

我正在通过配置单元中的外部表在表中加载csv文件。csv有1000行。但是当我在上面创建一个外部表时,该表显示了1219行。除了1000个正确的行之外,表中还有219个额外的行,所有列中都有空值。任何人都可以提出任何建议,以避免额外的219行?我从配置单元中的表命令中选择count(*)获得的计数。该文件是hdfs格式的

我已经尝试了记事本的EOL功能++

这是我的create语句

Create external table if not exists movie_data_sample(
    movie_rank int,
   title string,
   genre string,
   description string,
   director string,
   actor string,
   year int,
   runtime_in_minutes int,
   rating decimal(2,1),
   votes int,
   revenue_in_millions decimal(10,1),
   metascore int
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
location 'location'
tblproperties ("skip.header.line.count"="1");

行和列分隔符是否正确?看看发生了什么。。创建一个常规表,并使用load语句从csv加载数据。使用常规表也可以加载更多行。分隔符是正确的。我可以这样说,因为我可以看到正确加载的数据。但是很少有额外的行在每个列中加上值作为空值,这些可能是CSV文件末尾的空行。如果其数据大小可编辑,则使用记事本++对其进行编辑并更新。如果它的数据集很大,那么一个外部表和一个常规表过滤空行的两步过程。它是1000个数据cab文件。我在notedpad++for EOF中编辑,它的结尾没有任何空行。行和列分隔符是否正确?看看发生了什么。。创建一个常规表,并使用load语句从csv加载数据。使用常规表也可以加载更多行。分隔符是正确的。我可以这样说,因为我可以看到正确加载的数据。但是很少有额外的行在每个列中加上值作为空值,这些可能是CSV文件末尾的空行。如果其数据大小可编辑,则使用记事本++对其进行编辑并更新。如果它的数据集很大,那么一个外部表和一个常规表过滤空行的两步过程。它是1000个数据cab文件。我在notedpad++中编辑了EOF,它的结尾没有任何空行。