Nlp 数据清理:是否有我们可以使用的常见排列库?还是有更好的方法?

Nlp 数据清理:是否有我们可以使用的常见排列库?还是有更好的方法?,nlp,match,Nlp,Match,我们正在清理和分析大量人工输入的客户数据。我们需要通过编程来决定两个地址(例如)是否相同,即使输入的数据略有变化 现在,我们通过相当简单的字符串替换来运行每个地址(例如,将avenue替换为ave),连接字段并比较结果。我们正在做一些与名字相似的事情 至少,我们的搜索替换值列表应该已经存在于某个地方 或者你可以建议一种完全不同的、优越的方法来检测匹配 和它的变体可能是一个好的开始,就像维基百科页面建议的其他方法一样。和它的变体可能是一个好的开始,就像维基百科页面建议的其他方法一样。对于地址,你应

我们正在清理和分析大量人工输入的客户数据。我们需要通过编程来决定两个地址(例如)是否相同,即使输入的数据略有变化

现在,我们通过相当简单的字符串替换来运行每个地址(例如,将avenue替换为ave),连接字段并比较结果。我们正在做一些与名字相似的事情

至少,我们的搜索替换值列表应该已经存在于某个地方


或者你可以建议一种完全不同的、优越的方法来检测匹配

和它的变体可能是一个好的开始,就像维基百科页面建议的其他方法一样。

和它的变体可能是一个好的开始,就像维基百科页面建议的其他方法一样。

对于地址,你应该通过谷歌地图api运行它们,并为每个地址获取地理代码。那么,如果地理编码相同,那么地点也相同。我相信他们可以免费提供10k点击率/天/ip

你不可能自己想出更好的办法


对于地址,您应该通过谷歌地图api运行它们,并为每个地址获取地理代码。那么,如果地理编码相同,那么地点也相同。我相信他们可以免费提供10k点击率/天/ip

你不可能自己想出更好的办法


本质上,你试图找到两个字符串有多相似,有很多不同的方法来测量它。骰子系数对于您所做的工作可能相当有效,尽管它的操作成本有点高

如果您想要更全面的字符串相似性度量列表,请尝试以下操作:

本质上,你试图找到两个字符串有多相似,有很多不同的方法来测量它。骰子系数对于您所做的工作可能相当有效,尽管它的操作成本有点高

如果您想要更全面的字符串相似性度量列表,请尝试以下操作:

在工作中,我帮助编写验证地址的软件(用于SmartyStreet)

地址验证是一项非常棘手的操作——事实上,美国邮政局已经指定了一些经过认证的公司来提供这项服务。我不建议(即使我处在你的位置上)你自己尝试这样做。如前所述,Google进行了一些地址解析,但只近似于地址。谷歌、雅虎和类似的服务将不会验证地址数据的准确性


所以你需要一个经过CASS认证的方法来解决这个问题。我会建议像手术室一样的东西。两者都是经过USPS认证的CASS,可以满足您的要求。

在工作中,我帮助编写验证地址的软件(用于SmartyStreet)

地址验证是一项非常棘手的操作——事实上,美国邮政局已经指定了一些经过认证的公司来提供这项服务。我不建议(即使我处在你的位置上)你自己尝试这样做。如前所述,Google进行了一些地址解析,但只近似于地址。谷歌、雅虎和类似的服务将不会验证地址数据的准确性


所以你需要一个经过CASS认证的方法来解决这个问题。我会建议像手术室一样的东西。这两个都是USPS认证的CASS,可以满足您的要求。

也许我遗漏了什么,但“234 5th avenue,2th floor,new york NY 10002”和“234 7th avenue,2th floor,new york NY 10002”这两个字符串是否非常相似但地址不同?也许我遗漏了什么,但“234 5th avenue,2th floor,new york NY 10002”和“纽约州纽约市第七大道234号2楼,邮编:NY 10002”非常相似的字符串,但地址不同?小心-谷歌不会总是返回正确的结果,它只会做出最佳猜测。小心-谷歌不会总是返回正确的结果,它只会做出最佳猜测。