Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/324.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 构建文章分类器-NLTK/Scikit学习/其他NLP实现_Python_Weka_Nltk_Scikit Learn_Mallet - Fatal编程技术网

Python 构建文章分类器-NLTK/Scikit学习/其他NLP实现

Python 构建文章分类器-NLTK/Scikit学习/其他NLP实现,python,weka,nltk,scikit-learn,mallet,Python,Weka,Nltk,Scikit Learn,Mallet,对于我当前的项目,我必须构建一个主题建模或分类实用程序,它将处理数千篇文章,将它们分类为不同的主题(开始时主题可能是40-50)。例如,它将浏览数据库技术的文章,并将它们分类为NOSQL文章/关系数据库文章/图形数据库文章(只是一个示例) 我有非常基本的NLP背景,我们的团队大多有python后端脚本编写经验。我开始研究可用于实现它的各种选项,遇到了基于Python的NLTK和Scikit Learn,以及基于JVM的Weka和Mallet。 我的理解是NLTK更适合学习和理解各种NLP技术,如

对于我当前的项目,我必须构建一个主题建模或分类实用程序,它将处理数千篇文章,将它们分类为不同的主题(开始时主题可能是40-50)。例如,它将浏览数据库技术的文章,并将它们分类为NOSQL文章/关系数据库文章/图形数据库文章(只是一个示例)

我有非常基本的NLP背景,我们的团队大多有python后端脚本编写经验。我开始研究可用于实现它的各种选项,遇到了基于Python的NLTK和Scikit Learn,以及基于JVM的Weka和Mallet。
我的理解是NLTK更适合学习和理解各种NLP技术,如主题分类

有人能提出什么可能是我们可以用于实现的最好的开源解决方案吗?
如果我遗漏了任何有助于回答的信息,请告诉我。

建立主题分类模型可以通过两种方式完成。 如果您有一个针对文档的标签的培训集,则始终可以使用scikit learn构建分类器

但是如果你没有任何训练数据,你可以建立一个叫做主题模型的东西。它基本上以一组单词的形式给你提供主题


您可以使用Gensim包来实现这一点。非常简洁、快速且易于实现()

您是否有一套现有的培训文章?如果是,它有多大?此外,您的示例主题非常接近,因此算法要正确分类要比钓鱼、天文学和16世纪画家困难得多。这些细节在很大程度上决定了什么算法适合您的情况。关于“最佳”工具包的建议是离题的。看。如果您想要性能,我会避免使用NLTK,它主要是一个教育工具包,尽管它可以用于原型设计。是的,我们有一些主题的培训系列文章(20-50篇)。我们可以选择从更多不同的主题开始,然后转向更精细的主题。感谢您确认我对NLTK的理解。我想从一个框架开始,这个框架现在可以帮助解决更多不同的主题。Mallet正在寻找一个可能的选择-对此有何经验或评论?我们也会很感激其他的选择。。。