Python NLTK：用数字分数代替标签的文档分类_Python_Nltk

Python NLTK：用数字分数代替标签的文档分类

python

Python NLTK：用数字分数代替标签的文档分类,python,nltk,Python,Nltk,根据一个项目，我一直在使用Python NLTK、文档分类和朴素贝叶斯分类器。据我从文档中了解，如果您的不同文档使用pos或neg作为标签（或超过2个标签）进行标记，则此功能非常有效我正在处理的已经分类的文档没有标签，但是它们有一个分数，一个介于0和5之间的浮点值我想做的是构建一个分类器，就像文档中的电影示例一样，但这将预测一段文本的分数，而不是标签。我相信这在文档中提到过，但从未作为“数字特征的概率”进一步探讨过我不是语言专家，也不是统计学家，所以如果有人有这样的例子，如果你能和我分享，

根据一个项目，我一直在使用Python NLTK、文档分类和朴素贝叶斯分类器。据我从文档中了解，如果您的不同文档使用pos或neg作为标签（或超过2个标签）进行标记，则此功能非常有效

我正在处理的已经分类的文档没有标签，但是它们有一个分数，一个介于0和5之间的浮点值

我想做的是构建一个分类器，就像文档中的电影示例一样，但这将预测一段文本的分数，而不是标签。我相信这在文档中提到过，但从未作为“数字特征的概率”进一步探讨过

我不是语言专家，也不是统计学家，所以如果有人有这样的例子，如果你能和我分享，我将不胜感激。谢谢

您正在寻找的是线性回归，而scikit learn在这方面要比NLTK好得多，请参见这是一个非常晚的答案，但它可能会帮助某些人

你问的是回归。关于雅各布的答案，线性回归只是一种方法。但是，我同意他对scikit learn的建议。

不太熟悉NLTK，但朴素贝叶斯分类器中的标签与概率直接相关。因此，在NLTK代码的某个地方，计算了一个概率，并基于该概率是高于还是低于阈值，应用了一个标签。