Java 跨类别的产品比较

Java 跨类别的产品比较,java,machine-learning,Java,Machine Learning,我在找一个价格比较网站。所以问题是,它如何知道来自两个不同网站的两种产品属于同一种产品,并将两种产品合并到同一个桶中以显示价格比较 如果仅仅是书籍,我就无法理解所有书籍都有唯一的ISBN编号,那么只需编写一些特定于网站的代码,从网站获取数据并进行比较 e、 g.您有两个网站: www.xyz.com www.pqr.com 现在这两个网站列出了不同的书籍,即html将不同,因此解析html并从中获取ISBN,price。对于相应的ISBN我们可以把这两个网站的价格。这很简单,但您将如何在ISB

我在找一个价格比较网站。所以问题是,它如何知道来自两个不同网站的两种产品属于同一种产品,并将两种产品合并到同一个桶中以显示价格比较

如果仅仅是书籍,我就无法理解所有书籍都有唯一的
ISBN
编号,那么只需编写一些特定于网站的代码,从网站获取数据并进行比较

e、 g.您有两个网站:

www.xyz.com
www.pqr.com
现在这两个网站列出了不同的书籍,即html将不同,因此解析html并从中获取
ISBN
price
。对于相应的
ISBN
我们可以把这两个网站的价格。这很简单,但您将如何在ISBN等网站上解析没有
id
唯一且统一的产品(如高压锅、手表等)


谢谢。

其他产品也有识别号,在欧洲是
EAN
,目前已成为名为
GTIN
的全球编号。在电子商务中,通常使用Amazon ID(
ASIN
,其中
ISBN
是其中的一个子集)

如果您没有这些号码(通常是这样),则需要一种称为
记录链接
数据匹配
的策略

TL;DR它通常使用字符串匹配算法来查找类似的“文字”产品(例如,使用n-gram上的倒排索引)。最后,您可以使用机器学习删除错误匹配(误报)。这需要大量的训练数据(没有或太小的公共数据集可用),因此大多数情况下人类会检查这些匹配

对于这个问题的更详细的分析,我只能推荐阅读这本书。它深入到信息检索(如何找到相似的产品)以及如何使用机器学习(例如通过结构分析)来分类错误或正确的匹配

网上也有他写的很多文件,所以请结帐