Nlp 最佳自动文档分类库_Nlp_Bayesian_Document Classification

Nlp 最佳自动文档分类库

nlp

Nlp 最佳自动文档分类库,nlp,bayesian,document-classification,Nlp,Bayesian,Document Classification,问题是：我们有一大堆文件（杂志文章）需要分类。有些类别反映了文章的主题（文章的主题），而有些类别反映了文章的“性质”（如果杂志是纸质印刷的，可能会出现这种情况）我们目前正在手动解决这个问题，将文章发送到海外，让人们查看并标记它们我们想更自动化这个过程。我看过各种库，但它们似乎不是为解决这个问题而设计的 Carrot²可以对搜索结果进行聚类，但不清楚它是否可以处理现有（固定）类别，或者是否可以直接从每个输入推断类别 NLTK是一个多面手解决方案，可以做很多事情，但在速度和准确性方面没有声誉。也

问题是：我们有一大堆文件（杂志文章）需要分类。有些类别反映了文章的主题（文章的主题），而有些类别反映了文章的“性质”（如果杂志是纸质印刷的，可能会出现这种情况）

我们目前正在手动解决这个问题，将文章发送到海外，让人们查看并标记它们

我们想更自动化这个过程。我看过各种库，但它们似乎不是为解决这个问题而设计的

Carrot²可以对搜索结果进行聚类，但不清楚它是否可以处理现有（固定）类别，或者是否可以直接从每个输入推断类别

NLTK是一个多面手解决方案，可以做很多事情，但在速度和准确性方面没有声誉。也许是我最好的选择

理想情况下，我希望找到一个解决方案，在给定类别列表和分类文档培训集的情况下，能够为新文档建议一个类别，并对其建议的准确性充满信心

如果没有现成的，我可以尝试基于NLTK的NaiveBayesClassifier编写一些东西，但是还有什么其他选项呢？

对于这个监督分类任务，我会使用。它嵌入了从特征提取（比单词包复杂得多）到顶级机器学习（最大熵模型）的一切。如果您有足够的培训数据（即手动标记的文章），那么它工作得非常好

唯一的问题是，它只会为每篇文章分配一个类。但是，由于您的两个“维度”（本文的主题和文章的类型）似乎是合理正交的，没有什么可以阻止您将这两个维度视为两个独立的分类问题。

很多很多很多库都可以进行文本分类：NLTK、Lucene、scikit learn、Orange、Weka、，Carrot²是一个聚类库；上次我查看时，它无法进行监督学习。更新链接（没有ssl问题）：