Text 从电子邮件中提取相关信息的最佳方法是什么?

Text 从电子邮件中提取相关信息的最佳方法是什么?,text,nlp,neural-network,html-content-extraction,information-extraction,Text,Nlp,Neural Network,Html Content Extraction,Information Extraction,我朋友有一家小公司,客户通过电子邮件订购服务。他每天都会收到几封电子邮件,整理邮件变得越来越麻烦 客户可以请求大约10种不同类型的任务,每种任务都有一个或两个词来指定。电子邮件中的其他信息是服务交付的地点、时间和相关人员的姓名。电子邮件还包含一个ID,一个相当标准格式的长数字 这些电子邮件非常无组织,但都包含上述关键信息。我的问题是:扫描这些电子邮件并提取关键信息(如服务类型、地点、人名、ID等)的最佳方法是什么 我考虑了一些预处理,然后将其传递给AlchemyAPI,然后使用神经网络对每个特征

我朋友有一家小公司,客户通过电子邮件订购服务。他每天都会收到几封电子邮件,整理邮件变得越来越麻烦

客户可以请求大约10种不同类型的任务,每种任务都有一个或两个词来指定。电子邮件中的其他信息是服务交付的地点、时间和相关人员的姓名。电子邮件还包含一个ID,一个相当标准格式的长数字

这些电子邮件非常无组织,但都包含上述关键信息。我的问题是:扫描这些电子邮件并提取关键信息(如服务类型、地点、人名、ID等)的最佳方法是什么

我考虑了一些预处理,然后将其传递给AlchemyAPI,然后使用神经网络对每个特征(关键信息)测试炼金术输出。这可以是有监督的学习,因为我可以随时进行反馈循环,因为一旦输入信息,我就可以有人验证

有什么想法吗?谢谢

我想正则表达式和字典匹配可以捕获某些部分(ID、任务、时间)。看看这个工具

组装一个字典,然后使用“任务”的查找应该相当容易,您还可以重用日期/时间的可用jape规则,并为ID编写一个新的规则(同样,一个简单的正则表达式也可以)

为了匹配位置和人名,你应该小心,如果名字和地点用在定义良好的句子中,openCalais和alchemyAPI会给你带来好的结果,并且可能会在一些表格或奇怪的格式中犯更多的错误。此外,你永远也无法确定你是否正确地捕捉到了地点和人员,因此不要直接依靠这些来处理订单

如果您有关于邮件结构或预期名称和位置的更多信息(即,您有一个包含所有可能名称的“客户”表),您可能希望自己进行标记,否则我会坚持使用openCalais或alchemyAPI+一些正则表达式


另外,我想所有邮件都是英文的。

你的朋友在用gmail吗?