Hive中的标记化函数

Hive中的标记化函数,hive,tokenize,tf-idf,Hive,Tokenize,Tf Idf,我试图遵循这个示例,其中术语频率和反向文档频率是在Hive中计算的: 我有一个名为pigoutputive的表,其中有以下字段: “body”列包含由空格分隔的字符串[a-z a-z&0-9] 我想对body进行标记,以便生成与owneruserid和body元组的关系,以便执行TF-IDF算法 我收到一个与tokenize函数相关的错误,有人能告诉我哪里出了问题吗 我的错误如下:编译语句时出错:失败:SemanticException[错误10011]:第8:37行无效函数“tokenize

我试图遵循这个示例,其中术语频率和反向文档频率是在Hive中计算的:

我有一个名为pigoutputive的表,其中有以下字段:

“body”列包含由空格分隔的字符串[a-z a-z&0-9]

我想对body进行标记,以便生成与owneruserid和body元组的关系,以便执行TF-IDF算法

我收到一个与tokenize函数相关的错误,有人能告诉我哪里出了问题吗

我的错误如下:编译语句时出错:失败:SemanticException[错误10011]:第8:37行无效函数“tokenize”[错误状态]

create or replace view pigoutputhive_exploded
as
select
owneruserid, 
body,
score
from
pigoutputhive LATERAL VIEW explode(tokenize(body,true)) t as word
where
not is_stopword(word);

Tokenize在配置单元中不起作用,必须使用语句()函数

标记化函数是Hive的一个Hivemall扩展

因此,您需要先安装Hivemall

有关将Hivemall函数加载到配置单元的信息,请参见下一页。