Web scraping 删除电子商务网站并聚合相同的产品

Web scraping 删除电子商务网站并聚合相同的产品,web-scraping,scrapy,fuzzy-comparison,Web Scraping,Scrapy,Fuzzy Comparison,我正在尝试学习网络抓取,作为一个应用程序,我想我应该构建一个聚合器,对零售商的某些产品进行爬网,并对不同零售商的相同产品进行价格比较 当我开始做这件事时,我确切地意识到这是一项多么艰巨的任务 首先,我需要抓取的网站不仅有不同的DOM结构格式,还有相同产品的名称和商品价格格式以及在售商品的价格格式 其次,在我以某种方式解码了x个站点的DOM之后(对一两个站点进行解码很容易,但我想使爬虫程序具有可伸缩性!),并获取了各种项目的数据。我需要能够比较相同产品的不同名称,以便比较零售商之间的不同价格(将其

我正在尝试学习网络抓取,作为一个应用程序,我想我应该构建一个聚合器,对零售商的某些产品进行爬网,并对不同零售商的相同产品进行价格比较

当我开始做这件事时,我确切地意识到这是一项多么艰巨的任务

首先,我需要抓取的网站不仅有不同的DOM结构格式,还有相同产品的名称和商品价格格式以及在售商品的价格格式

其次,在我以某种方式解码了x个站点的DOM之后(对一两个站点进行解码很容易,但我想使爬虫程序具有可伸缩性!),并获取了各种项目的数据。我需要能够比较相同产品的不同名称,以便比较零售商之间的不同价格(将其转换为相同货币,检查返回的价格是否为原始/销售价格等)


我正在尝试使用Scrapy编写我的爬虫程序,但有人能推荐一种方法来适应各种零售商的爬虫程序吗?如果有任何库/方法可以很好地解决比较相似(不同)项目的第二个问题?

为了进行比较,您可以将产品名称字符串转换为列表,比较它们并设置阈值以确定两种产品是否相同

对于比较,您可以将产品名称字符串转换为列表,比较它们并设置阈值以确定两个产品是否相同

通常最好将问题分开。你在这里问了至少两个完全不同的问题,这使得你的帖子有点太宽泛了。我看我会把它们分开问。通常最好把问题分开。你在这里问了至少两个完全不同的问题,这使得你的帖子有点太宽泛了。我看我会把它们分开,分别问