Machine learning NLP：计算文档属于某个主题的概率（有一袋单词）？_Machine Learning_Nlp

Machine learning NLP：计算文档属于某个主题的概率（有一袋单词）？

machine-learning nlp

Machine learning NLP：计算文档属于某个主题的概率（有一袋单词）？,machine-learning,nlp,Machine Learning,Nlp,给定一个主题，如何计算文档“属于”该主题的概率（即体育）这就是我必须处理的问题： 1）我知道文档中与该主题相关的常用词（排除所有停止词），以及有该词的文档的百分比例如，如果主题是体育，我知道： 75% of sports documents have the word "play" 70% have the word "stadium" 40% have the word "contract" 30% have the word "baseball" 2）考虑到这一点，以及一份包含大量

给定一个主题，如何计算文档“属于”该主题的概率（即体育）

这就是我必须处理的问题：

1）我知道文档中与该主题相关的常用词（排除所有停止词），以及有该词的文档的百分比例如，如果主题是体育，我知道：

75% of sports documents have the word "play"
70% have the word "stadium"
40% have the word "contract"
30% have the word "baseball"

2）考虑到这一点，以及一份包含大量单词的文档，我如何计算该文档属于该主题的概率

解决聚类问题有很多方法。我建议从简单的逻辑回归开始，看看结果。若您已经有预定义的本体集，那个么可以在下一阶段将它们添加为功能，以提高准确性

这是一个模糊分类问题，主题是类，单词是特征。通常情况下，每个主题都没有一袋单词，而是一组文档和相关主题，所以我将首先描述这个案例

寻找概率的最自然的方法（与概率论中使用的方法相同）是使用朴素贝叶斯分类器。这个算法已经被描述了很多次，所以我不打算在这里讨论它。你可以在或在关联中找到很好的解释
您还可以使用许多其他算法。例如，您的描述自然适合基于的分类器。tf*idf（术语频率*反向文档频率）是现代搜索引擎中用于计算文档中单词重要性的统计数据。对于分类，您可以计算每个主题的“平均文档”，然后找到新文档与每个主题的接近程度

如果你的情况和你所描述的完全一样——只是主题和相关单词——把每一个单词包看成是一个单一文档，可能会重复频繁的单词。
< P>这是一个模糊的分类问题，主题是类和词的特征。通常情况下，每个主题都没有一袋单词，而是一组文档和相关主题，所以我将首先描述这个案例
寻找概率的最自然的方法（与概率论中使用的方法相同）是使用朴素贝叶斯分类器。这个算法已经被描述了很多次，所以我不打算在这里讨论它。你可以在或在关联中找到很好的解释
您还可以使用许多其他算法。例如，您的描述自然适合基于的分类器。tf*idf（术语频率*反向文档频率）是现代搜索引擎中用于计算文档中单词重要性的统计数据。对于分类，您可以计算每个主题的“平均文档”，然后找到新文档与每个主题的接近程度

如果你的情况和你所描述的完全一样——只是主题和相关单词——只需将每一个单词包看作一个文档，可能会复制频繁的单词。
检查<代码>主题建模< /C> >（），如果你在Python中编码，你应该检查Read的实现，GEnSim.（）。除此之外，还有许多其他的实现来自于
签出
主题建模
（），如果您是用python编码的，您应该签出radim的实现gensim（）。除此之外，链接还有许多其他的实现，尽管问题不是关于主题建模，链接也有许多其他实现，尽管问题不是关于主题建模