Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/64.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在R中标记日文文本:只标记指定列的第一行_R_Dataframe_Tokenize_Tidytext_Mecab - Fatal编程技术网

在R中标记日文文本:只标记指定列的第一行

在R中标记日文文本:只标记指定列的第一行,r,dataframe,tokenize,tidytext,mecab,R,Dataframe,Tokenize,Tidytext,Mecab,我正试图用日语标记器RMeCab标记一组tweet,特别是RMeCabDF(用于数据帧)功能 文件说明了以下用法: RMeCabDF 说明 RMeCabDF将数据帧作为第一个参数,并分析 由第二个参数指定的列。空白数据应为 替换为NA。如果将1指定为第三个参数,则返回 每个语素的基本形式 用法 RMeCabDF(数据流、coln、mypref、dic=“”、mecabrc=“”)等) 参数 dataf data.frame coln列号或名称,包括日语句子 mypref默认值为0,返回文本上显示

我正试图用日语标记器
RMeCab
标记一组tweet,特别是
RMeCabDF
(用于数据帧)功能

文件说明了以下用法:

RMeCabDF

说明

RMeCabDF将数据帧作为第一个参数,并分析 由第二个参数指定的列。空白数据应为 替换为NA。如果将1指定为第三个参数,则返回 每个语素的基本形式

用法

RMeCabDF(数据流、coln、mypref、dic=“”、mecabrc=“”)等)

参数

dataf data.frame

coln列号或名称,包括日语句子

mypref默认值为0,返回文本上显示的相同语素形式。如果指定了1,则它们的基本形式为

dic指定用户字典,e.x.ishida.dic

mecabrc未实现(用于指定mecab资源文件)

etc mecab的其他选项

因此,接下来,我使用以下代码标记数据帧
trump_ja
中的列号
89

trump_ja_tokens <- RMeCabDF(trump_ja, coln = 89)

trump_ja_代币您可以将
RMeCab
代币器与tidytext一起使用,就像以前那样。您可以这样设置:

df %>%
    unnest_tokens(word, text, token = RMeCab::RMeCabC)

其中,
df
是您的数据框,
word
是您要创建的新列,
text
是您已有的包含要标记的文本的旧列。
unnest\u tokens()
中的
token
参数可以将函数作为参数,用于类似的情况。

我不知道RMecab,但可能来自
quanteda
的参数可以进一步帮助您。