Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/10.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 数据匹配算法_Algorithm_Matching - Fatal编程技术网

Algorithm 数据匹配算法

Algorithm 数据匹配算法,algorithm,matching,Algorithm,Matching,我真的不知道从哪里开始这个项目,所以我希望一个宽泛的问题至少能为我指明正确的方向 我现在有两个数据集,每个大约5gb,有200万次观测。它们是在一定时间内为特定区域的房地产清单收集的评估和历史数据。我需要做的是将属性彼此匹配。因此,一项财产可能在历史上出现,因为它在这段时间内被出售了2到3次。在此历史记录中,我有卖家信息、贷款信息和销售信息。在估价员数据中,我拥有描述出售物业的所有特征。所以,为了做任何定价模型,我需要匹配这两个 我有相似的变量,但它们会略有不同(拼写错误、缩写等)。有人对我的经

我真的不知道从哪里开始这个项目,所以我希望一个宽泛的问题至少能为我指明正确的方向

我现在有两个数据集,每个大约5gb,有200万次观测。它们是在一定时间内为特定区域的房地产清单收集的评估和历史数据。我需要做的是将属性彼此匹配。因此,一项财产可能在历史上出现,因为它在这段时间内被出售了2到3次。在此历史记录中,我有卖家信息、贷款信息和销售信息。在估价员数据中,我拥有描述出售物业的所有特征。所以,为了做任何定价模型,我需要匹配这两个

我有相似的变量,但它们会略有不同(拼写错误、缩写等)。有人对我的经历有什么建议吗?首先,我想在什么程序中执行此操作?我有STATA、R和一点SAS和Matlab的经验,但我更喜欢使用前两种

我通读了以下内容:

当他使用.NET时,一位用户建议使用Levenshtein方法(计算字符串之间的距离),因此对于Address之类的字段,我可以使用它并加权两个字符串之间的近似精度。然后,有人建议可能使用Soundex作为卖方/业主的名称

但是我真的很迷茫于如何实现这些,在我接近我部门的任何人之前,我真的需要对我正在做的事情有一些想法


任何帮助或建议都会大有裨益

是的,对于您描述的字符串匹配问题,有几种很好的算法,即:

  • 雅罗·温克勒
  • 史密斯·沃特曼
  • 色子
  • soundex
  • damerau levenshtein,以及
  • 蒙格埃尔坎 举几个例子
我建议概述一下什么对什么最有效

声称是最好的。它以Java包的形式提供。以下提供了字符串匹配和记录链接算法的其他实现:

  • Java()
  • Python()
  • C#(),以及
  • 斯卡拉

库。

您尝试过地址上的精确字符串匹配吗?这样你会错过很多比赛,但你会引入很少的错误。而且你的数据集相当大,所以你可能只能接受完美匹配的子集。你可以提供更多关于你所指论文的信息,因为链接似乎是死的。谢谢!我更新了主要作者网站(Cohen)上的参考资料和论文链接。