Hadoop 配置单元-如何将完整的html文件内容加载到单个配置单元行?
我在HDFS路径中有1000个*.html文件,我想用这些文件创建配置单元表。 但下面的查询给了我一个以“\n”分隔的行,而不是html的全部内容Hadoop 配置单元-如何将完整的html文件内容加载到单个配置单元行?,hadoop,hive,Hadoop,Hive,我在HDFS路径中有1000个*.html文件,我想用这些文件创建配置单元表。 但下面的查询给了我一个以“\n”分隔的行,而不是html的全部内容 > create external table if not exist mydb.myhtmltable ( > body STRING ) > STORED AS TEXTFILE > LOCATION '/user/hadoop/dataset/refhtml'; 如何将完整的html内容放入.body字段? 我想要1
> create external table if not exist mydb.myhtmltable (
> body STRING )
> STORED AS TEXTFILE
> LOCATION '/user/hadoop/dataset/refhtml';
如何将完整的html内容放入.body字段?
我想要1000个html文件中的1000行。
可能吗?添加以下内容:
LINES TERMINATED BY \789
其中789是要使用的unicode字符的八进制表示形式
因此:
感谢javadba的评论。但是\789抛出一个错误,如:;失败:SemanticException 4:20以结尾的行现在只支持换行符“\n”。在标记“\789”附近遇到错误。当前只允许“\n”。如果你有其他建议,请引导我:)提前谢谢你。
create external table if not exist mydb.myhtmltable (
body STRING )
STORED AS TEXTFILE
LINES TERMINATED BY \789
LOCATION '/user/hadoop/dataset/refhtml';