Python NLTK:用数字分数代替标签的文档分类

Python NLTK:用数字分数代替标签的文档分类,python,nltk,Python,Nltk,根据一个项目,我一直在使用Python NLTK、文档分类和朴素贝叶斯分类器。据我从文档中了解,如果您的不同文档使用pos或neg作为标签(或超过2个标签)进行标记,则此功能非常有效 我正在处理的已经分类的文档没有标签,但是它们有一个分数,一个介于0和5之间的浮点值 我想做的是构建一个分类器,就像文档中的电影示例一样,但这将预测一段文本的分数,而不是标签。我相信这在文档中提到过,但从未作为“数字特征的概率”进一步探讨过 我不是语言专家,也不是统计学家,所以如果有人有这样的例子,如果你能和我分享,

根据一个项目,我一直在使用Python NLTK、文档分类和朴素贝叶斯分类器。据我从文档中了解,如果您的不同文档使用pos或neg作为标签(或超过2个标签)进行标记,则此功能非常有效

我正在处理的已经分类的文档没有标签,但是它们有一个分数,一个介于0和5之间的浮点值

我想做的是构建一个分类器,就像文档中的电影示例一样,但这将预测一段文本的分数,而不是标签。我相信这在文档中提到过,但从未作为“数字特征的概率”进一步探讨过


我不是语言专家,也不是统计学家,所以如果有人有这样的例子,如果你能和我分享,我将不胜感激。谢谢

您正在寻找的是线性回归,而scikit learn在这方面要比NLTK好得多,请参见这是一个非常晚的答案,但它可能会帮助某些人


你问的是回归。关于雅各布的答案,线性回归只是一种方法。但是,我同意他对scikit learn的建议。

不太熟悉NLTK,但朴素贝叶斯分类器中的标签与概率直接相关。因此,在NLTK代码的某个地方,计算了一个概率,并基于该概率是高于还是低于阈值,应用了一个标签。