Text 将数据帧转换为语料库时如何避免单词标记?

Text 将数据帧转换为语料库时如何避免单词标记?,text,token,cjk,corpus,quanteda,Text,Token,Cjk,Corpus,Quanteda,我尝试将数据框架转换为中文材料的语料库。我已经用了解霸来分裂了 并标记文本,然后使用顺序 语料库1=语料库(数据帧) 而在这个过程之后,当我试图建立DataTerm矩阵时,我发现一些中文单词已经被分割成单个字符。我想知道原因和如何解决它。非常感谢你 你需要提供一些可行的例子。在构建语料库之前,不需要对文本进行标记,因为quanteda可以很好地标记中文。(见附件)。或者,如果您已经将其标记化为标记列表(每个文档一个列表元素),请使用as.tokens()将其转换为quantedatokens对象

我尝试将数据框架转换为中文材料的语料库。我已经用了解霸来分裂了 并标记文本,然后使用顺序

语料库1=语料库(数据帧)
而在这个过程之后,当我试图建立DataTerm矩阵时,我发现一些中文单词已经被分割成单个字符。我想知道原因和如何解决它。非常感谢你

你需要提供一些可行的例子。在构建语料库之前,不需要对文本进行标记,因为quanteda可以很好地标记中文。(见附件)。或者,如果您已经将其标记化为标记列表(每个文档一个列表元素),请使用
as.tokens()
将其转换为quanteda
tokens
对象。