Regex 从pdf文件中提取邮政地址

Regex 从pdf文件中提取邮政地址,regex,pdf,text,data-mining,text-mining,Regex,Pdf,Text,Data Mining,Text Mining,是否有任何库/工具包可以帮助我从非结构化PDF文档(如信件)中提取邮政地址信息?如果没有,您将如何完成此任务 我考虑过使用一个开源的PDF库并用正则表达式模式搜索信息,但我不确定是否有可能用这种简单的方法可靠地识别地址。不幸的是,我参加的数据挖掘课程没有涉及文本挖掘,只涉及高度结构化的数据。也许从事自然语言处理的人知道一个有用的库或工具包?使用pdf2xml或任何其他PDF库/工具包,并使用您最喜欢的搜索引擎搜索“邮政地址提取”,并将您的搜索限制为文件类型PDF。我建议您阅读PDF(即转换为文本

是否有任何库/工具包可以帮助我从非结构化PDF文档(如信件)中提取邮政地址信息?如果没有,您将如何完成此任务


我考虑过使用一个开源的PDF库并用正则表达式模式搜索信息,但我不确定是否有可能用这种简单的方法可靠地识别地址。不幸的是,我参加的数据挖掘课程没有涉及文本挖掘,只涉及高度结构化的数据。也许从事自然语言处理的人知道一个有用的库或工具包?

使用pdf2xml或任何其他PDF库/工具包,并使用您最喜欢的搜索引擎搜索“邮政地址提取”,并将您的搜索限制为文件类型PDF。

我建议您阅读PDF(即转换为文本)和写邮政地址语法

为什么,因为我有一个通用用户名?不,因为你在问如何解析非结构化PDF文档并在没有合理解释的情况下剥离邮政地址数据。像你这样的防御性回答只能支持我的怀疑。哦,你的意思是解释我为什么要这么做。是的,我想如果没有它,我的意图可能被归类为恶意。嗯,这是国家邮政局的一个(可能的)项目。他们有大量的PDF信件文档,他们想为某种系列信件活动提取地址信息。所以我猜这是垃圾邮件,但官方垃圾邮件。这不是重点。关键是如何在非结构化文本(如字母)中识别地址信息。pdf文档由客户提供。忽略有关pdf的部分。你尝试过推荐的网络搜索吗?如果你是指这篇论文,那么谢谢。在发布问题之前我已经看过了,它确实很有趣。非常感谢,GExp甚至有一个处理地址提取的示例: