Magento 从电子商务产品页面提取主产品图像

Magento 从电子商务产品页面提取主产品图像,magento,html-parsing,bigcommerce,html-parser,image-extraction,Magento,Html Parsing,Bigcommerce,Html Parser,Image Extraction,我正在寻找从零售商网站上的产品页面中提取主图像的选项,问题是一个产品页面中有多个图像(相关图像),我认为可行的一种方法是提取所有图像链接,下载它们中的每一个,并比较每个图像的大小,并考虑一个在存储字节方面最大的一个,作为主要产品图像的一个。 显然,这是一种非常低效的方法,我们知道大多数零售商使用某些电子商务平台,如magento、bigcommerce等,主要的电子商务平台屈指可数,是否有可能检测电子商务平台并利用每个平台提供的模板精确提取主要产品图像 我知道这种方法永远不会完美,但我正在寻找一

我正在寻找从零售商网站上的产品页面中提取主图像的选项,问题是一个产品页面中有多个图像(相关图像),我认为可行的一种方法是提取所有图像链接,下载它们中的每一个,并比较每个图像的大小,并考虑一个在存储字节方面最大的一个,作为主要产品图像的一个。 显然,这是一种非常低效的方法,我们知道大多数零售商使用某些电子商务平台,如magento、bigcommerce等,主要的电子商务平台屈指可数,是否有可能检测电子商务平台并利用每个平台提供的模板精确提取主要产品图像


我知道这种方法永远不会完美,但我正在寻找一种算法,该算法的准确率大约为80%,是否可行?

您可以使用简单的dom html库来提取html。就magento而言,产品缩略图是产品页面上“product image”类中的img标记。您可以将其提取为大小合适的缩略图。

您是否有要从中提取图像的零售商列表?如果是这样,那么手动浏览每个零售商的站点,查看其HTML,并创建一些代码,成功地从这个特定的零售商提取图像。如果没有,那么我恐怕你就走运了——你可以抓取页面上最大的图片,或者使用其他一些启发式方法,但不能保证你抓取的是实际的产品图片


创建某种通用实用程序的问题在于,每个电子商务平台都有自己的显示产品图像的结构,并且这种结构可以随每个站点而改变。例如,仅仅因为Magento通常以某种方式构造其图像,并不意味着您总是以这种方式看到它们-这完全取决于当前应用的主题。

如果您了解零售商和图像,那么也可以通过脚本下载图像,并在foreach循环语句中检查大小,然后保存最大的一个


谢谢

这篇文章对已经提供的答案没有任何价值。