在R中标记日文文本：只标记指定列的第一行_R_Dataframe_Tokenize_Tidytext_Mecab

在R中标记日文文本：只标记指定列的第一行

r dataframe

在R中标记日文文本：只标记指定列的第一行,r,dataframe,tokenize,tidytext,mecab,R,Dataframe,Tokenize,Tidytext,Mecab,我正试图用日语标记器RMeCab标记一组tweet，特别是RMeCabDF（用于数据帧）功能文件说明了以下用法： RMeCabDF 说明 RMeCabDF将数据帧作为第一个参数，并分析由第二个参数指定的列。空白数据应为替换为NA。如果将1指定为第三个参数，则返回每个语素的基本形式用法 RMeCabDF（数据流、coln、mypref、dic=“”、mecabrc=“”）等）参数 dataf data.frame coln列号或名称，包括日语句子 mypref默认值为0，返回文本上显示

我正试图用日语标记器

RMeCab

标记一组tweet，特别是

RMeCabDF

（用于数据帧）功能

文件说明了以下用法：

RMeCabDF

说明

RMeCabDF将数据帧作为第一个参数，并分析由第二个参数指定的列。空白数据应为替换为NA。如果将1指定为第三个参数，则返回每个语素的基本形式

用法

RMeCabDF（数据流、coln、mypref、dic=“”、mecabrc=“”）等）

参数

dataf data.frame

coln列号或名称，包括日语句子

mypref默认值为0，返回文本上显示的相同语素形式。如果指定了1，则它们的基本形式为

dic指定用户字典，e.x.ishida.dic

mecabrc未实现（用于指定mecab资源文件）

etc mecab的其他选项

因此，接下来，我使用以下代码标记数据帧

trump_ja

中的列号

：

trump_ja_tokens <- RMeCabDF(trump_ja, coln = 89)

trump_ja_代币您可以将RMeCab
代币器与tidytext一起使用，就像以前那样。您可以这样设置：
df %>%
    unnest_tokens(word, text, token = RMeCab::RMeCabC)

其中，df
是您的数据框，word
是您要创建的新列，text
是您已有的包含要标记的文本的旧列。unnest\u tokens（）
中的token
参数可以将函数作为参数，用于类似的情况。
我不知道RMecab，但可能来自quanteda
的参数可以进一步帮助您。