Machine learning 使用ML/NLP识别电子邮件中提到的人

Machine learning 使用ML/NLP识别电子邮件中提到的人,machine-learning,nlp,text-mining,word2vec,Machine Learning,Nlp,Text Mining,Word2vec,我正在从事一个NLP项目,其中我有一个与欣赏相关的电子邮件列表。我正试图从邮件内容中确定谁被感激。这反过来又将有助于组织实施我们的绩效评估计划 除了确定谁受到赞赏外,我还试图确定一个人所做的工作类型并为其评分。我使用开放NLP(最大熵/逻辑回归)对电子邮件进行分类,并使用某种形式的启发式方法来识别被赞赏的人 人员识别方法如下所示: 确定电子邮件是否与欣赏相关 获取“收件人:”列表中的人员列表 检查电子邮件中是否提到了此人 把那个人贴上感激的标签 然而,这种方法非常简单,不适用于我们通常看到的复杂

我正在从事一个NLP项目,其中我有一个与欣赏相关的电子邮件列表。我正试图从邮件内容中确定谁被感激。这反过来又将有助于组织实施我们的绩效评估计划

除了确定谁受到赞赏外,我还试图确定一个人所做的工作类型并为其评分。我使用开放NLP(最大熵/逻辑回归)对电子邮件进行分类,并使用某种形式的启发式方法来识别被赞赏的人

人员识别方法如下所示:

  • 确定电子邮件是否与欣赏相关
  • 获取“收件人:”列表中的人员列表
  • 检查电子邮件中是否提到了此人
  • 把那个人贴上感激的标签
  • 然而,这种方法非常简单,不适用于我们通常看到的复杂电子邮件。一封电子邮件可以由许多电子邮件ID或被提及的人组成,他们不是感谢的接收者。此人的上下文不可用,因此准确性不是很好


    我正在考虑使用HMM和word2vec来解决人员问题。如果有人遇到过这个问题或有任何建议,我将不胜感激。

    使用tm软件包表示感谢。并使用tf idf(术语频率-反向文档频率)确定感谢谁


    我之所以建议这样做,是因为,就我所能读到的而言,这是一种无监督的学习(你不知道谁被欣赏过)。因此,你必须描述文档(电子邮件)的内容,而这个公式(tf-idf)将有助于了解在一个特定文档中使用最多的词是什么,而在其他文档中很少使用

    解决此问题的一种方法是使用命名实体识别。您可以在文本上运行类似Stanford NER的程序,这将帮助您识别电子邮件中提到的所有人名,然后使用基于规则的chunker(如Stanford TokensRegex)提取提到人名和感谢词的句子


    解决这一问题的最佳方法是将其视为一个有监督的学习问题。然后,您需要用实体和表达式短语以及它们之间的关系来注释一组训练数据。然后可以使用Stanford关系提取器来提取适当的关系

    你应该给你的文本一个样本。