Text 将数据帧转换为语料库时如何避免单词标记？_Text_Token_Cjk_Corpus_Quanteda

Text 将数据帧转换为语料库时如何避免单词标记？

text

Text 将数据帧转换为语料库时如何避免单词标记？,text,token,cjk,corpus,quanteda,Text,Token,Cjk,Corpus,Quanteda,我尝试将数据框架转换为中文材料的语料库。我已经用了解霸来分裂了并标记文本，然后使用顺序语料库1=语料库（数据帧）而在这个过程之后，当我试图建立DataTerm矩阵时，我发现一些中文单词已经被分割成单个字符。我想知道原因和如何解决它。非常感谢你你需要提供一些可行的例子。在构建语料库之前，不需要对文本进行标记，因为quanteda可以很好地标记中文。（见附件）。或者，如果您已经将其标记化为标记列表（每个文档一个列表元素），请使用as.tokens（）将其转换为quantedatokens对象

我尝试将数据框架转换为中文材料的语料库。我已经用了解霸来分裂了并标记文本，然后使用顺序

语料库1=语料库（数据帧）

而在这个过程之后，当我试图建立DataTerm矩阵时，我发现一些中文单词已经被分割成单个字符。我想知道原因和如何解决它。非常感谢你

你需要提供一些可行的例子。在构建语料库之前，不需要对文本进行标记，因为quanteda可以很好地标记中文。（见附件）。或者，如果您已经将其标记化为标记列表（每个文档一个列表元素），请使用

as.tokens（）

将其转换为quanteda

tokens

对象。