Nlp 作为一名数据科学家,我应该研究什么来分析提交的电子邮件?

Nlp 作为一名数据科学家,我应该研究什么来分析提交的电子邮件?,nlp,Nlp,我目前在一家大公司担任数据科学家,这意味着我们每天都会收到大量电子邮件,我们希望能够尽可能准确地对它们进行分类 数据量在那里根本不是问题。我可以提取任意数量的邮件 我真的不知道从哪里开始,也从来没有在nlp问题学方面工作过,所以我想知道你们会想出什么想法或技术 我对分析我拥有的数据的想法感兴趣,也对我能提出的模型感兴趣。 出于某些隐私原因,我不想太多地谈论我在哪里工作的细节,但我可能能够回答您的一些问题 我的主要问题是如何处理所有这些未分类的数据。这些邮件没有标记,因此我如何能够创建nlp模型,

我目前在一家大公司担任数据科学家,这意味着我们每天都会收到大量电子邮件,我们希望能够尽可能准确地对它们进行分类

数据量在那里根本不是问题。我可以提取任意数量的邮件

我真的不知道从哪里开始,也从来没有在nlp问题学方面工作过,所以我想知道你们会想出什么想法或技术

我对分析我拥有的数据的想法感兴趣,也对我能提出的模型感兴趣。 出于某些隐私原因,我不想太多地谈论我在哪里工作的细节,但我可能能够回答您的一些问题

我的主要问题是如何处理所有这些未分类的数据。这些邮件没有标记,因此我如何能够创建nlp模型,并能够在不计算召回率、精确度的情况下评估他的表现

您是否也有任何建议,哪些模型可以用来分析进入的邮件。我想标记它们,例如,账单、错误、问题等


非常感谢

可能会将其转换为具有频繁特征的tfidf矩阵,并将其分类是一个起点。

研究问题是什么?有什么问题需要解决吗?或者只是“这里有一堆数据,你能告诉我们些什么?”“?我从未在nlp problematics工作过,所以我想知道从哪里开始。没有太多的代码发布。。。现在我大约有120万人在输入电子邮件,我不知道从哪里开始。如何分析它,做什么…但是你想从你的数据中找出什么?你的老板告诉你他们感兴趣的是什么?我们希望能够找出电子邮件与什么相关,并能够对它们进行分类。例如,账单、地址变更、使用我们的工具的bug……更准确地说,我们有我们想要创建模型的数据。但这些邮件目前从未分配过标签,因此,当我们无法计算准确度、精确度和召回率时,我们如何创建一个模型?