Web scraping Web抓取:匹配不同来源上具有不同名称的相同项目

Web scraping Web抓取:匹配不同来源上具有不同名称的相同项目,web-scraping,match,Web Scraping,Match,我正在抓取不同的投注网站,以便在同一事件中获得最佳赔率。假设我在两个不同的网站上获得了关于同一游戏的这些结果: { "1": 1.27, "2": 10, "game": "Juventus - Spal 2013", "X": 5.45 } 及 我能“告诉”我的系统“Spal”和“SPAL2013”是同一个团队的最佳方式是什么?(这只是一个例子,它可能发生在许多事件、团队和球员身上)。最后,我选择使用包,它有方法findBestMatch(item,targetSt

我正在抓取不同的投注网站,以便在同一事件中获得最佳赔率。假设我在两个不同的网站上获得了关于同一游戏的这些结果:

{
   "1": 1.27,
   "2": 10,
   "game": "Juventus - Spal 2013",
   "X": 5.45
 }


我能“告诉”我的系统“Spal”和“SPAL2013”是同一个团队的最佳方式是什么?(这只是一个例子,它可能发生在许多事件、团队和球员身上)。

最后,我选择使用包,它有方法
findBestMatch(item,targetStrings)

解决方案的范围在我看来实际上相当广泛。你认为你能做些什么来实现这一点?使用一种“匹配矩阵”寻找不同收受赌注者所得结果之间的最佳匹配。但是这两个站点中的两个字典总是有相同的键(在你的例子中是1,2,game和X),因此编码和执行起来似乎非常繁重?“游戏”的价值观是两支球队的顺序相同(而不是“Spal-尤文图斯”)?@JackFleeting是的,键是相同的(我在抓取后构建JSON文件),球队顺序是相同的,那么,你能再举几个例子吗?这可能会有帮助。
{
    "1": 1.28,
    "2": 11,
    "game": "Juventus - Spal",
    "X": 5.5
}