Python 使用nltk对文本文档进行分类_Python_Machine Learning_Nltk_Text Classification_Document Classification

Python 使用nltk对文本文档进行分类

python machine-learning

Python 使用nltk对文本文档进行分类,python,machine-learning,nltk,text-classification,document-classification,Python,Machine Learning,Nltk,Text Classification,Document Classification,我目前正在做一个项目，在这个项目中，我正在接收电子邮件，使用电子邮件包剥离邮件正文，然后我想用体育、政治、技术等标签对它们进行分类我已经成功地从我的电子邮件中删除了邮件正文，现在我想开始分类。我使用move_评论语料库将文档分为正面评论和负面评论，完成了情绪分析分类的经典示例我只是想知道如何将这种方法应用到我的项目中？我可以创建多个类，如体育、科技、政治、娱乐等吗。？我在这里遇到了一个路障，正在寻找一个正确的方向如果这不是一个合适的问题，我很乐意删除它编辑：大家好，我看到这篇文章有点受欢

我目前正在做一个项目，在这个项目中，我正在接收电子邮件，使用电子邮件包剥离邮件正文，然后我想用体育、政治、技术等标签对它们进行分类

我已经成功地从我的电子邮件中删除了邮件正文，现在我想开始分类。我使用move_评论语料库将文档分为正面评论和负面评论，完成了情绪分析分类的经典示例

我只是想知道如何将这种方法应用到我的项目中？我可以创建多个类，如体育、科技、政治、娱乐等吗。？我在这里遇到了一个路障，正在寻找一个正确的方向

如果这不是一个合适的问题，我很乐意删除它

编辑：大家好，我看到这篇文章有点受欢迎，我最终成功地完成了这个项目，下面是指向GitHub Repo项目中代码的链接：

要创建分类器，您需要一个包含您要查找的类的训练数据集。在您的情况下，您可能需要：

创建自己的数据集

使用预先存在的数据集

这是一篇具有开创性的文章，包含了您所谈论的许多类别。这可以作为一个起点，帮助您使用诸如

gensim

之类的软件包对电子邮件进行分类，以查找语义相似的文本

一旦你对你的电子邮件进行分类，你就可以训练一个系统来预测每一封看不见的电子邮件的标签

文本分类任务是一个有监督的机器学习问题。这意味着您需要有带标签的数据。当你遇到电影评论问题时，你使用+1/-1标签来训练你的情绪分析系统

回到你的问题上来：

如果您的数据有标签，请以相同的方式处理问题。我建议您使用scikit学习库。你可以从这里得到一些启发：

如果你没有标签，你可以尝试一种无监督的学习方法。如果你有关于你有多少类别的任何线索（打电话给K），你可以尝试KMeans方法。这意味着，根据电子邮件的相似程度将其分为K类。类似的电子邮件最终也会出现在类似的桶中。然后用手检查集群并制作标签。将新电子邮件分配到最相似的群集。如果您需要KMeans的帮助，请查看以下快速配方：

建议：获取电子邮件标签可能比你想象的要容易。例如，Gmail允许您导出带有文件夹信息的电子邮件。如果您已经对电子邮件进行了分类，您可以利用这一点。

您看过gensim python库吗？要开始分类，您需要首先标记数据集。它可以是手动注释，也可以是基于规则的。确保可以为数据集创建多类。对于您的电子邮件类型，请确保您有多个类别。然后，您可以开始学习并对数据进行分类。使用cv或分裂列车试验。就像你为电影评论所做的那样。正如其他人提到的，gensim做主题建模。Link:Gensim发现文档之间的语义相似性并对它们进行聚类。通过查看特定集群中的文档，您可以将这些桶识别为体育、政治、技术等。谢谢您的帮助！