Nlp 最佳自动文档分类库

Nlp 最佳自动文档分类库,nlp,bayesian,document-classification,Nlp,Bayesian,Document Classification,问题是:我们有一大堆文件(杂志文章)需要分类。有些类别反映了文章的主题(文章的主题),而有些类别反映了文章的“性质”(如果杂志是纸质印刷的,可能会出现这种情况) 我们目前正在手动解决这个问题,将文章发送到海外,让人们查看并标记它们 我们想更自动化这个过程。我看过各种库,但它们似乎不是为解决这个问题而设计的 Carrot²可以对搜索结果进行聚类,但不清楚它是否可以处理现有(固定)类别,或者是否可以直接从每个输入推断类别 NLTK是一个多面手解决方案,可以做很多事情,但在速度和准确性方面没有声誉。也

问题是:我们有一大堆文件(杂志文章)需要分类。有些类别反映了文章的主题(文章的主题),而有些类别反映了文章的“性质”(如果杂志是纸质印刷的,可能会出现这种情况)

我们目前正在手动解决这个问题,将文章发送到海外,让人们查看并标记它们

我们想更自动化这个过程。我看过各种库,但它们似乎不是为解决这个问题而设计的

Carrot²可以对搜索结果进行聚类,但不清楚它是否可以处理现有(固定)类别,或者是否可以直接从每个输入推断类别

NLTK是一个多面手解决方案,可以做很多事情,但在速度和准确性方面没有声誉。也许是我最好的选择

理想情况下,我希望找到一个解决方案,在给定类别列表和分类文档培训集的情况下,能够为新文档建议一个类别,并对其建议的准确性充满信心


如果没有现成的,我可以尝试基于NLTK的NaiveBayesClassifier编写一些东西,但是还有什么其他选项呢?

对于这个监督分类任务,我会使用。它嵌入了从特征提取(比单词包复杂得多)到顶级机器学习(最大熵模型)的一切。如果您有足够的培训数据(即手动标记的文章),那么它工作得非常好


唯一的问题是,它只会为每篇文章分配一个类。但是,由于您的两个“维度”(本文的主题和文章的类型)似乎是合理正交的,没有什么可以阻止您将这两个维度视为两个独立的分类问题。

很多很多很多库都可以进行文本分类:NLTK、Lucene、scikit learn、Orange、Weka、,Carrot²是一个聚类库;上次我查看时,它无法进行监督学习。更新链接(没有ssl问题):