Python 使用nltk对文本文档进行分类
我目前正在做一个项目,在这个项目中,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想用体育、政治、技术等标签对它们进行分类 我已经成功地从我的电子邮件中删除了邮件正文,现在我想开始分类。我使用move_评论语料库将文档分为正面评论和负面评论,完成了情绪分析分类的经典示例 我只是想知道如何将这种方法应用到我的项目中?我可以创建多个类,如体育、科技、政治、娱乐等吗。?我在这里遇到了一个路障,正在寻找一个正确的方向 如果这不是一个合适的问题,我很乐意删除它 编辑:大家好,我看到这篇文章有点受欢迎,我最终成功地完成了这个项目,下面是指向GitHub Repo项目中代码的链接:Python 使用nltk对文本文档进行分类,python,machine-learning,nltk,text-classification,document-classification,Python,Machine Learning,Nltk,Text Classification,Document Classification,我目前正在做一个项目,在这个项目中,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想用体育、政治、技术等标签对它们进行分类 我已经成功地从我的电子邮件中删除了邮件正文,现在我想开始分类。我使用move_评论语料库将文档分为正面评论和负面评论,完成了情绪分析分类的经典示例 我只是想知道如何将这种方法应用到我的项目中?我可以创建多个类,如体育、科技、政治、娱乐等吗。?我在这里遇到了一个路障,正在寻找一个正确的方向 如果这不是一个合适的问题,我很乐意删除它 编辑:大家好,我看到这篇文章有点受欢
要创建分类器,您需要一个包含您要查找的类的训练数据集。在您的情况下,您可能需要:
gensim
之类的软件包对电子邮件进行分类,以查找语义相似的文本
一旦你对你的电子邮件进行分类,你就可以训练一个系统来预测每一封看不见的电子邮件的标签 文本分类任务是一个有监督的机器学习问题。这意味着您需要有带标签的数据。当你遇到电影评论问题时,你使用+1/-1标签来训练你的情绪分析系统 回到你的问题上来:
建议:获取电子邮件标签可能比你想象的要容易。例如,Gmail允许您导出带有文件夹信息的电子邮件。如果您已经对电子邮件进行了分类,您可以利用这一点。您看过gensim python库吗?要开始分类,您需要首先标记数据集。它可以是手动注释,也可以是基于规则的。确保可以为数据集创建多类。对于您的电子邮件类型,请确保您有多个类别。然后,您可以开始学习并对数据进行分类。使用cv或分裂列车试验。就像你为电影评论所做的那样。正如其他人提到的,gensim做主题建模。Link:Gensim发现文档之间的语义相似性并对它们进行聚类。通过查看特定集群中的文档,您可以将这些桶识别为体育、政治、技术等。谢谢您的帮助!