Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/sqlite/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 标签文本文档-监督机器学习_Nlp_Nltk_Stanford Nlp_Opennlp - Fatal编程技术网

Nlp 标签文本文档-监督机器学习

Nlp 标签文本文档-监督机器学习,nlp,nltk,stanford-nlp,opennlp,Nlp,Nltk,Stanford Nlp,Opennlp,我目前正在从事一个项目,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想使用诸如体育、政治、技术等标签对它们进行分类。我已成功地从电子邮件中剥离邮件正文。我想开始分类 要制作多个标签,如体育、科技、政治、娱乐,我需要每个标签的一些单词来制作标签。举例 体育标签将有标签数据:足球、足球、曲棍球 我在哪里可以找到在线标签数据来帮助我?您尝试的是主题建模: 主题列表在很大程度上取决于您的培训数据集以及构建此数据集的最终目的。 一个好的起点可以是: 您可以查看他们的主题,但也可以使用它为您的

我目前正在从事一个项目,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想使用诸如体育、政治、技术等标签对它们进行分类。我已成功地从电子邮件中剥离邮件正文。我想开始分类

要制作多个标签,如体育、科技、政治、娱乐,我需要每个标签的一些单词来制作标签。举例

体育标签将有标签数据:足球、足球、曲棍球


我在哪里可以找到在线标签数据来帮助我?

您尝试的是主题建模:

主题列表在很大程度上取决于您的培训数据集以及构建此数据集的最终目的。 一个好的起点可以是:


您可以查看他们的主题,但也可以使用它为您的数据提供一些初始主题,只需在他们的主题之上工作。

您可以使用BBC数据集。 它为有帮助的新闻文章贴上了标签

对于特征提取,删除停止字,进行词干分析,使用n-gram和tf idf,然后选择您可以使用的最佳特征


要获奖,有不同种类的文字。例如,电子邮件文本中最常见的单词之一将是
Hi
Hello
,但在wiki文本中
Hi
Hello
将不是常见的单词

我不确定这是stackoverflow类型的问题。如果你已经收到邮件,你可以尝试使用LDA提取主题词。我有主题/标签列表,我有内容。