Machine learning NLP:计算文档属于某个主题的概率(有一袋单词)?

Machine learning NLP:计算文档属于某个主题的概率(有一袋单词)?,machine-learning,nlp,Machine Learning,Nlp,给定一个主题,如何计算文档“属于”该主题的概率(即体育) 这就是我必须处理的问题: 1) 我知道文档中与该主题相关的常用词(排除所有停止词),以及有该词的文档的百分比 例如,如果主题是体育,我知道: 75% of sports documents have the word "play" 70% have the word "stadium" 40% have the word "contract" 30% have the word "baseball" 2) 考虑到这一点,以及一份包含大量

给定一个主题,如何计算文档“属于”该主题的概率(即体育)

这就是我必须处理的问题:

1) 我知道文档中与该主题相关的常用词(排除所有停止词),以及有该词的文档的百分比 例如,如果主题是体育,我知道:

75% of sports documents have the word "play"
70% have the word "stadium"
40% have the word "contract"
30% have the word "baseball"

2) 考虑到这一点,以及一份包含大量单词的文档,我如何计算该文档属于该主题的概率

解决聚类问题有很多方法。我建议从简单的逻辑回归开始,看看结果。若您已经有预定义的本体集,那个么可以在下一阶段将它们添加为功能,以提高准确性

解决聚类问题有很多方法。我建议从简单的逻辑回归开始,看看结果。若您已经有预定义的本体集,那个么可以在下一阶段将它们添加为功能,以提高准确性

这是一个模糊分类问题,主题是类,单词是特征。通常情况下,每个主题都没有一袋单词,而是一组文档和相关主题,所以我将首先描述这个案例

寻找概率的最自然的方法(与概率论中使用的方法相同)是使用朴素贝叶斯分类器。这个算法已经被描述了很多次,所以我不打算在这里讨论它。你可以在或在关联中找到很好的解释

您还可以使用许多其他算法。例如,您的描述自然适合基于的分类器。tf*idf(术语频率*反向文档频率)是现代搜索引擎中用于计算文档中单词重要性的统计数据。对于分类,您可以计算每个主题的“平均文档”,然后找到新文档与每个主题的接近程度


如果你的情况和你所描述的完全一样——只是主题和相关单词——把每一个单词包看成是一个单一文档,可能会重复频繁的单词。

< P>这是一个模糊的分类问题,主题是类和词的特征。通常情况下,每个主题都没有一袋单词,而是一组文档和相关主题,所以我将首先描述这个案例

寻找概率的最自然的方法(与概率论中使用的方法相同)是使用朴素贝叶斯分类器。这个算法已经被描述了很多次,所以我不打算在这里讨论它。你可以在或在关联中找到很好的解释

您还可以使用许多其他算法。例如,您的描述自然适合基于的分类器。tf*idf(术语频率*反向文档频率)是现代搜索引擎中用于计算文档中单词重要性的统计数据。对于分类,您可以计算每个主题的“平均文档”,然后找到新文档与每个主题的接近程度


如果你的情况和你所描述的完全一样——只是主题和相关单词——只需将每一个单词包看作一个文档,可能会复制频繁的单词。

检查<代码>主题建模< /C> >(),如果你在Python中编码,你应该检查Read的实现,GEnSim.()。除此之外,还有许多其他的实现来自于

签出
主题建模
(),如果您是用python编码的,您应该签出radim的实现gensim()。除此之外,链接还有许多其他的实现,尽管问题不是关于主题建模,链接也有许多其他实现,尽管问题不是关于主题建模