Nlp 用于电子邮件清理的开源项目从非结构化源生成结构化数据?

Nlp 用于电子邮件清理的开源项目从非结构化源生成结构化数据?,nlp,data-mining,text-processing,data-scrubbing,Nlp,Data Mining,Text Processing,Data Scrubbing,我不知道从哪里开始,希望你们能澄清我的问题。我有一个项目,其中电子邮件将搜索特定的单词/模式,并以结构化的方式存储。与…有关的事情 他们开发了一个数据映射器 DataMapper负责接收入站电子邮件 发送至[在]tripit.com的计划,并将其从 您在邮件阅读器中看到的半结构化格式变成了一种高度 结构化XML文档 有一条评论也指出 如果你想自己建造这个,读一点关于 包装器和包装器归纳可能会有所帮助 我在谷歌上搜索并阅读了关于包装归纳法的内容,但它的定义太宽泛,无法帮助我理解如何解决这样的问题

我不知道从哪里开始,希望你们能澄清我的问题。我有一个项目,其中电子邮件将搜索特定的单词/模式,并以结构化的方式存储。与…有关的事情

他们开发了一个数据映射器

DataMapper负责接收入站电子邮件 发送至[在]tripit.com的计划,并将其从 您在邮件阅读器中看到的半结构化格式变成了一种高度 结构化XML文档

有一条评论也指出

如果你想自己建造这个,读一点关于 包装器和包装器归纳可能会有所帮助

我在谷歌上搜索并阅读了关于包装归纳法的内容,但它的定义太宽泛,无法帮助我理解如何解决这样的问题


有没有类似的开源项目

要做到这一点,有几种不同的方法和方法

第一部分,涉及访问电子邮件内容,我在这里不回答。基本上,我假设您可以访问电子邮件的文本,如果您没有,则有一些库允许您将java连接到类似camel()的邮箱

现在你收到了电子邮件,那又怎么样

lingpipe()具有一个实体识别器,您可以用自己的术语填充该识别器,这是一件非常方便的事情。具体来说,看看他们的一些抽取教程和字典提取器(),在lingpipe字典提取器()中,您只需导入感兴趣的术语,并使用它们将标签与电子邮件关联起来


您可能还发现以下问题很有帮助:

确实是一个非常广泛的问题,但我可以尝试给您一些一般性的想法,这些想法可能足以让您开始学习。基本上,这听起来像是在讨论一个复杂的语法分析问题——扫描文本,并将意义应用到特定的语块中。根据您要查找的具体内容,您可能会从一些正则表达式中获得一些好处,例如电话号码、电子邮件地址和日期等具有相当标准的结构,应该可以匹配。其他数据点可能会受益于一些指示词——“偏离”一词可能表示后面是地址。自然语言处理社区也有一个用于文本处理的大型工具集——检查词类标记器和语义分析器等工具,如果它们适合您正在尝试的操作

使用这些技术,您可以遵循一个基本的迭代开发过程:对于预期输出结构中的每个数据点,定义一些简单的规则来捕获它。然后,在一批测试数据上运行应用程序,查看哪些样本没有捕获该数据。查看样本,并修改规则以捕获这些样本。重复此操作,直到提取器达到可接受的精度水平


根据您问题的具体情况,可能有一些机器学习技术可以为您自动化大部分过程。

要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源的问题可能会导致堆栈溢出,因为它们往往会吸引固执己见的答案和垃圾邮件。相反,请描述问题以及迄今为止为解决问题所做的工作。