R 如何在dfm中组合多字？_R_Quanteda

R 如何在dfm中组合多字？

R 如何在dfm中组合多字？,r,quanteda,R,Quanteda,我创建了一个包含233行和3列（日期、标题、文章）的语料库，其中最后一列（文章）是文本（因此，我有233个文本）。最终目的是应用主题模型，为此，我需要将语料库转换为dfm。然而，我想首先将单词组合成二元图和三元图，以使分析更加严格问题是，当我使用textstat_搭配或标记（tokens_composite）时，我被迫标记语料库，这样做，我就失去了对应用主题模型至关重要的结构（233乘4）。事实上，一旦我应用这些函数，我只会得到一行对我来说毫无用处的bigram和trigram 所以我的问题是

我创建了一个包含233行和3列（日期、标题、文章）的语料库，其中最后一列（文章）是文本（因此，我有233个文本）。最终目的是应用主题模型，为此，我需要将语料库转换为dfm。然而，我想首先将单词组合成二元图和三元图，以使分析更加严格

问题是，当我使用textstat_搭配或标记（tokens_composite）时，我被迫标记语料库，这样做，我就失去了对应用主题模型至关重要的结构（233乘4）。事实上，一旦我应用这些函数，我只会得到一行对我来说毫无用处的bigram和trigram
所以我的问题是：你知道在dfm中寻找bigram和trigram而不必标记语料库的其他方法吗
或者，换句话说，您通常如何在dfm中查找多字

非常感谢您抽出时间
我不认为自己是主题建模方面的专家，但就我所知，
topicmodels
包使用了潜在的Dirichlet分配模型，该模型考虑了给定文档中的单词位置：我觉得使用/添加bigrams不会为模型提供更多信息。这不是真的明确你想要实现什么以及为什么。标记语料库和/或使用元数据创建将保留所有元数据（文档级变量或docvars）。关于检测多词表达的问题是完全不同的，但你没有明确说明你在寻找什么样的答案。KenBenoit教授我给你发了一封电子邮件，我想只要我有时间到你的办公室，亲自解释就更容易了，谢谢，如果我不在，我很抱歉clear@JohnCoene如果你在n个主题中，主题M的第k个元素是欧元或欧元区，预算或预算合并*等等，作为评论，我不认为自己是主题建模专家，但据我所知，
topicmodels
包使用潜在的Dirichlet分配模型，该模型考虑了给定文档中的单词位置：我觉得使用/添加bigrams不会提供更多模型的信息。你想要实现什么以及为什么还不清楚。标记语料库和/或使用元数据创建将保留所有元数据（文档级变量或docvars）。关于检测多词表达的问题是完全不同的，但你没有明确说明你在寻找什么样的答案。KenBenoit教授我给你发了一封电子邮件，我想只要我有时间到你的办公室，亲自解释就更容易了，谢谢，如果我不在，我很抱歉clear@JohnCoene如果在n个主题中，主题M的第k个元素是欧元或欧元区、预算或预算合并*等等，则会产生不同