Python 文本分类与分类;主题建模

Python 文本分类与分类;主题建模,python,text-mining,text-classification,topic-modeling,Python,Text Mining,Text Classification,Topic Modeling,对于大量的文章,我想得到权重分配给不同主题的主题模型&在主题中,不同子主题的权重是多少。例如,如果我提供了一篇同时属于商业和技术领域的文章,那么程序的输出应该是这样的:- 0.593商业(0.438-营销,0.375-公司,0.062-办公室工作) 0.148技术(按类型划分的技术为0.500,高科技商业区为0.250,科技公司为0.250) 0.111社会(0.333-组织,0.333-社会技术,0.333-劳动) 什么是最好的开源语言处理程序可以成功地完成这项工作?您可以使用开源语言进行

对于大量的文章,我想得到权重分配给不同主题的主题模型&在主题中,不同子主题的权重是多少。例如,如果我提供了一篇同时属于商业和技术领域的文章,那么程序的输出应该是这样的:-

  • 0.593商业(0.438-营销,0.375-公司,0.062-办公室工作)
  • 0.148技术(按类型划分的技术为0.500,高科技商业区为0.250,科技公司为0.250)
  • 0.111社会(0.333-组织,0.333-社会技术,0.333-劳动)

什么是最好的开源语言处理程序可以成功地完成这项工作?

您可以使用开源语言进行分类。

我想尝试一下NLTK,但是scikit learn,即使它的学习曲线比NLTK更陡峭,也可能是一个更好的选择。它更易于配置


对于初学者,我推荐几个程序来完成此任务的一部分。请注意,任何主题建模程序都会以您想要的形式为您提供主题,即

 ( 0.438 - Marketing , 0.375 - Companies, 0.062 - Office Work)
但是您需要为自己分配标签(在本例中为业务)。Mallet还将文本分解为主题(由数字标识,而不是由标签标识)