在R中标记日文文本:只标记指定列的第一行
我正试图用日语标记器在R中标记日文文本:只标记指定列的第一行,r,dataframe,tokenize,tidytext,mecab,R,Dataframe,Tokenize,Tidytext,Mecab,我正试图用日语标记器RMeCab标记一组tweet,特别是RMeCabDF(用于数据帧)功能 文件说明了以下用法: RMeCabDF 说明 RMeCabDF将数据帧作为第一个参数,并分析 由第二个参数指定的列。空白数据应为 替换为NA。如果将1指定为第三个参数,则返回 每个语素的基本形式 用法 RMeCabDF(数据流、coln、mypref、dic=“”、mecabrc=“”)等) 参数 dataf data.frame coln列号或名称,包括日语句子 mypref默认值为0,返回文本上显示
RMeCab
标记一组tweet,特别是RMeCabDF
(用于数据帧)功能
文件说明了以下用法:
RMeCabDF
说明
RMeCabDF将数据帧作为第一个参数,并分析
由第二个参数指定的列。空白数据应为
替换为NA。如果将1指定为第三个参数,则返回
每个语素的基本形式
用法
RMeCabDF(数据流、coln、mypref、dic=“”、mecabrc=“”)等)
参数
dataf data.frame
coln列号或名称,包括日语句子
mypref默认值为0,返回文本上显示的相同语素形式。如果指定了1,则它们的基本形式为
dic指定用户字典,e.x.ishida.dic
mecabrc未实现(用于指定mecab资源文件)
etc mecab的其他选项
因此,接下来,我使用以下代码标记数据帧trump_ja
中的列号89
:
trump_ja_tokens <- RMeCabDF(trump_ja, coln = 89)
trump_ja_代币您可以将RMeCab
代币器与tidytext一起使用,就像以前那样。您可以这样设置:
df %>%
unnest_tokens(word, text, token = RMeCab::RMeCabC)
其中,df
是您的数据框,word
是您要创建的新列,text
是您已有的包含要标记的文本的旧列。unnest\u tokens()
中的token
参数可以将函数作为参数,用于类似的情况。我不知道RMecab,但可能来自quanteda
的参数可以进一步帮助您。