Python 预测给定文档每个分类箱的概率分数

Python 预测给定文档每个分类箱的概率分数,python,nlp,logistic-regression,text-classification,Python,Nlp,Logistic Regression,Text Classification,我正在创建一个python模型,它将根据文本对给定文档进行分类。因为每个文档仍然需要人工审核,所以我正在创建一个建议平台,该平台将为用户提供给定文档所属的前n类。此外,每个文档可以属于多个类。我有一套培训文档,里面充满了富文本及其标签 我想做的是对每个文档执行回归,以获得每个分类的概率分数,并返回得分最高的前5个类 我研究过贝叶斯分类模型和推荐系统,我认为逻辑回归会更好,因为它会返回一个分数。我是机器学习的新手,如果有任何针对此类问题的建议或示例,我将不胜感激。多谢各位 编辑:具体来说,我的问题

我正在创建一个python模型,它将根据文本对给定文档进行分类。因为每个文档仍然需要人工审核,所以我正在创建一个建议平台,该平台将为用户提供给定文档所属的前n类。此外,每个文档可以属于多个类。我有一套培训文档,里面充满了富文本及其标签

我想做的是对每个文档执行回归,以获得每个分类的概率分数,并返回得分最高的前5个类

我研究过贝叶斯分类模型和推荐系统,我认为逻辑回归会更好,因为它会返回一个分数。我是机器学习的新手,如果有任何针对此类问题的建议或示例,我将不胜感激。多谢各位

编辑:具体来说,我的问题是如何解析文本数据,以便使用逻辑回归进行ML建模?我是否需要使用Word2Vec/Doc2Vec或一袋文字模型以矢量格式表示文本?

简而言之,构建一个或模型。然后您的模型输出。可以使用
Word2Vec
Bag of words
模型来构建这样的模型

更长的版本。请参见下图。这是本文中的图1。模型的输出将是logits,您可以在logits上应用softmax(多类)或sigmoid(多标签)转换。如果您希望对分类器输出有更多信心,那么本文中描述的校准步骤可能就是您想要执行的步骤。这一步是使用额外的验证数据集将分类器输出转换为真实正确性可能性的表示

简而言之,构建一个或模型。然后您的模型输出。可以使用
Word2Vec
Bag of words
模型来构建这样的模型

更长的版本。请参见下图。这是本文中的图1。模型的输出将是logits,您可以在logits上应用softmax(多类)或sigmoid(多标签)转换。如果您希望对分类器输出有更多信心,那么本文中描述的校准步骤可能就是您想要执行的步骤。这一步是使用额外的验证数据集将分类器输出转换为真实正确性可能性的表示


在使用逻辑回归进行文本分类时,您在理解文本分类时遇到问题的具体步骤是什么?在NLP方面,在逻辑回归中表示建模文本数据的最佳方法是什么?(例如Word2VEC,单词包)取决于问题、数据等。除了W2V和BoW之外,您还可以考虑TFIDF和FASTTEST。Sckit对tfidf的支持方式与bow几乎相同,而gensim对fasttext的支持方式与对w2v的支持方式几乎相同。但这实际上只是实验。此外,您还可以使用相对简单的神经网络作为逻辑回归的另一种替代方法(通常它们具有更高的性能)。使用逻辑回归进行文本分类的具体步骤是什么?在NLP方面,在逻辑回归中表示建模文本数据的最佳方法是什么?(例如Word2VEC,单词包)取决于问题、数据等。除了W2V和BoW之外,您还可以考虑TFIDF和FASTTEST。Sckit对tfidf的支持方式与bow几乎相同,而gensim对fasttext的支持方式与对w2v的支持方式几乎相同。但这实际上只是实验。此外,您可以使用相对简单的神经网络作为逻辑回归的另一种替代方法(通常它们具有更高的性能)。