Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/75.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 如何在dfm中组合多字?_R_Quanteda - Fatal编程技术网

R 如何在dfm中组合多字?

R 如何在dfm中组合多字?,r,quanteda,R,Quanteda,我创建了一个包含233行和3列(日期、标题、文章)的语料库,其中最后一列(文章)是文本(因此,我有233个文本)。最终目的是应用主题模型,为此,我需要将语料库转换为dfm。然而,我想首先将单词组合成二元图和三元图,以使分析更加严格 问题是,当我使用textstat_搭配或标记(tokens_composite)时,我被迫标记语料库,这样做,我就失去了对应用主题模型至关重要的结构(233乘4)。事实上,一旦我应用这些函数,我只会得到一行对我来说毫无用处的bigram和trigram 所以我的问题是

我创建了一个包含233行和3列(日期、标题、文章)的语料库,其中最后一列(文章)是文本(因此,我有233个文本)。最终目的是应用主题模型,为此,我需要将语料库转换为dfm。然而,我想首先将单词组合成二元图和三元图,以使分析更加严格

问题是,当我使用textstat_搭配标记(tokens_composite)时,我被迫标记语料库,这样做,我就失去了对应用主题模型至关重要的结构(233乘4)。事实上,一旦我应用这些函数,我只会得到一行对我来说毫无用处的bigram和trigram

所以我的问题是:你知道在dfm中寻找bigram和trigram而不必标记语料库的其他方法吗

或者,换句话说,您通常如何在dfm中查找多字


非常感谢您抽出时间

我不认为自己是主题建模方面的专家,但就我所知,
topicmodels
包使用了潜在的Dirichlet分配模型,该模型考虑了给定文档中的单词位置:我觉得使用/添加bigrams不会为模型提供更多信息。这不是真的明确你想要实现什么以及为什么。标记语料库和/或使用元数据创建将保留所有元数据(文档级变量或docvars)。关于检测多词表达的问题是完全不同的,但你没有明确说明你在寻找什么样的答案。KenBenoit教授我给你发了一封电子邮件,我想只要我有时间到你的办公室,亲自解释就更容易了,谢谢,如果我不在,我很抱歉clear@JohnCoene如果你在n个主题中,主题M的第k个元素是欧元或欧元区,预算或预算合并*等等,作为评论,我不认为自己是主题建模专家,但据我所知,
topicmodels
包使用潜在的Dirichlet分配模型,该模型考虑了给定文档中的单词位置:我觉得使用/添加bigrams不会提供更多模型的信息。你想要实现什么以及为什么还不清楚。标记语料库和/或使用元数据创建将保留所有元数据(文档级变量或docvars)。关于检测多词表达的问题是完全不同的,但你没有明确说明你在寻找什么样的答案。KenBenoit教授我给你发了一封电子邮件,我想只要我有时间到你的办公室,亲自解释就更容易了,谢谢,如果我不在,我很抱歉clear@JohnCoene如果在n个主题中,主题M的第k个元素是欧元或欧元区、预算或预算合并*等等,则会产生不同