Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/329.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用nltk对文本文档进行分类_Python_Machine Learning_Nltk_Text Classification_Document Classification - Fatal编程技术网

Python 使用nltk对文本文档进行分类

Python 使用nltk对文本文档进行分类,python,machine-learning,nltk,text-classification,document-classification,Python,Machine Learning,Nltk,Text Classification,Document Classification,我目前正在做一个项目,在这个项目中,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想用体育、政治、技术等标签对它们进行分类 我已经成功地从我的电子邮件中删除了邮件正文,现在我想开始分类。我使用move_评论语料库将文档分为正面评论和负面评论,完成了情绪分析分类的经典示例 我只是想知道如何将这种方法应用到我的项目中?我可以创建多个类,如体育、科技、政治、娱乐等吗。?我在这里遇到了一个路障,正在寻找一个正确的方向 如果这不是一个合适的问题,我很乐意删除它 编辑:大家好,我看到这篇文章有点受欢

我目前正在做一个项目,在这个项目中,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想用体育、政治、技术等标签对它们进行分类

我已经成功地从我的电子邮件中删除了邮件正文,现在我想开始分类。我使用move_评论语料库将文档分为正面评论和负面评论,完成了情绪分析分类的经典示例

我只是想知道如何将这种方法应用到我的项目中?我可以创建多个类,如体育、科技、政治、娱乐等吗。?我在这里遇到了一个路障,正在寻找一个正确的方向

如果这不是一个合适的问题,我很乐意删除它

编辑:大家好,我看到这篇文章有点受欢迎,我最终成功地完成了这个项目,下面是指向GitHub Repo项目中代码的链接:

要创建分类器,您需要一个包含您要查找的类的训练数据集。在您的情况下,您可能需要:

  • 创建自己的数据集
  • 使用预先存在的数据集
  • 这是一篇具有开创性的文章,包含了您所谈论的许多类别。这可以作为一个起点,帮助您使用诸如
    gensim
    之类的软件包对电子邮件进行分类,以查找语义相似的文本


    一旦你对你的电子邮件进行分类,你就可以训练一个系统来预测每一封看不见的电子邮件的标签

    文本分类任务是一个有监督的机器学习问题。这意味着您需要有带标签的数据。当你遇到电影评论问题时,你使用+1/-1标签来训练你的情绪分析系统

    回到你的问题上来:

  • 如果您的数据有标签,请以相同的方式处理问题。我建议您使用scikit学习库。你可以从这里得到一些启发:

  • 如果你没有标签,你可以尝试一种无监督的学习方法。如果你有关于你有多少类别的任何线索(打电话给K),你可以尝试KMeans方法。这意味着,根据电子邮件的相似程度将其分为K类。类似的电子邮件最终也会出现在类似的桶中。然后用手检查集群并制作标签。将新电子邮件分配到最相似的群集。如果您需要KMeans的帮助,请查看以下快速配方:


  • 建议:获取电子邮件标签可能比你想象的要容易。例如,Gmail允许您导出带有文件夹信息的电子邮件。如果您已经对电子邮件进行了分类,您可以利用这一点。

    您看过gensim python库吗?要开始分类,您需要首先标记数据集。它可以是手动注释,也可以是基于规则的。确保可以为数据集创建多类。对于您的电子邮件类型,请确保您有多个类别。然后,您可以开始学习并对数据进行分类。使用cv或分裂列车试验。就像你为电影评论所做的那样。正如其他人提到的,gensim做主题建模。Link:Gensim发现文档之间的语义相似性并对它们进行聚类。通过查看特定集群中的文档,您可以将这些桶识别为体育、政治、技术等。谢谢您的帮助!