Python 构建文章分类器-NLTK/Scikit学习/其他NLP实现
对于我当前的项目,我必须构建一个主题建模或分类实用程序,它将处理数千篇文章,将它们分类为不同的主题(开始时主题可能是40-50)。例如,它将浏览数据库技术的文章,并将它们分类为NOSQL文章/关系数据库文章/图形数据库文章(只是一个示例) 我有非常基本的NLP背景,我们的团队大多有python后端脚本编写经验。我开始研究可用于实现它的各种选项,遇到了基于Python的NLTK和Scikit Learn,以及基于JVM的Weka和Mallet。Python 构建文章分类器-NLTK/Scikit学习/其他NLP实现,python,weka,nltk,scikit-learn,mallet,Python,Weka,Nltk,Scikit Learn,Mallet,对于我当前的项目,我必须构建一个主题建模或分类实用程序,它将处理数千篇文章,将它们分类为不同的主题(开始时主题可能是40-50)。例如,它将浏览数据库技术的文章,并将它们分类为NOSQL文章/关系数据库文章/图形数据库文章(只是一个示例) 我有非常基本的NLP背景,我们的团队大多有python后端脚本编写经验。我开始研究可用于实现它的各种选项,遇到了基于Python的NLTK和Scikit Learn,以及基于JVM的Weka和Mallet。 我的理解是NLTK更适合学习和理解各种NLP技术,如
我的理解是NLTK更适合学习和理解各种NLP技术,如主题分类 有人能提出什么可能是我们可以用于实现的最好的开源解决方案吗?
如果我遗漏了任何有助于回答的信息,请告诉我。建立主题分类模型可以通过两种方式完成。 如果您有一个针对文档的标签的培训集,则始终可以使用scikit learn构建分类器 但是如果你没有任何训练数据,你可以建立一个叫做主题模型的东西。它基本上以一组单词的形式给你提供主题
您可以使用Gensim包来实现这一点。非常简洁、快速且易于实现()您是否有一套现有的培训文章?如果是,它有多大?此外,您的示例主题非常接近,因此算法要正确分类要比钓鱼、天文学和16世纪画家困难得多。这些细节在很大程度上决定了什么算法适合您的情况。关于“最佳”工具包的建议是离题的。看。如果您想要性能,我会避免使用NLTK,它主要是一个教育工具包,尽管它可以用于原型设计。是的,我们有一些主题的培训系列文章(20-50篇)。我们可以选择从更多不同的主题开始,然后转向更精细的主题。感谢您确认我对NLTK的理解。我想从一个框架开始,这个框架现在可以帮助解决更多不同的主题。Mallet正在寻找一个可能的选择-对此有何经验或评论?我们也会很感激其他的选择。。。