Web scraping 刮衣服的性别项目

Web scraping 刮衣服的性别项目,web-scraping,scrapy,Web Scraping,Scrapy,寻找建议,请在一个没有在产品页面上指定性别的网站上搜索服装项目的性别 我正在抓取的网站是www.very.co.uk,产品页面的一个示例如下- 看看这个页面,似乎没有简单的方法来创建一个脚本来识别这个项目是女装。其他网站可能有面包屑可供使用,或者标题/URL中可能有性别,但这没有任何内容 当我使用scrapy时,使用爬网模板和规则来构建一个链接层次结构来进行抓取,我想知道是否可以在其中一个规则中传递一个变量,或者在起始URL中传递一个变量来标识按照此规则/起始URL抓取的所有项目,该变量是否为w

寻找建议,请在一个没有在产品页面上指定性别的网站上搜索服装项目的性别

我正在抓取的网站是www.very.co.uk,产品页面的一个示例如下-

看看这个页面,似乎没有简单的方法来创建一个脚本来识别这个项目是女装。其他网站可能有面包屑可供使用,或者标题/URL中可能有性别,但这没有任何内容

当我使用scrapy时,使用爬网模板和规则来构建一个链接层次结构来进行抓取,我想知道是否可以在其中一个规则中传递一个变量,或者在起始URL中传递一个变量来标识按照此规则/起始URL抓取的所有项目,该变量是否为womenswear?然后,我可以将这个变量输入到method/loader语句中,在将该项目放入数据库之前将其标记为womenswear

如果不是的话,有没有人对如何将该商品归类为女装有其他想法。我看到了一个示例,您可以使用excel电子表格创建开始URL,并在该excel电子表格中将每一行标记为女装、男装等。但是,我觉得这种方法可能会导致进一步的问题,如果可能的话,更愿意避免。除非有人问,否则我不会详细说明为什么我认为这会有问题


提前感谢

在您的示例中似乎有一个面包屑,但是作为替代,您通常可以通过搜索您的术语来检查页面源代码-也许有一些嵌入式javascript/json可以提取

在这里,您可以看到一些子类别的javascript,表明它是一件“女式运动夹克”

您可以使用一些正则表达式非常轻松地解析它:

re.findall('subcategory:(.+?)”,response.body_as_unicode())
#女式日常运动夹克

啊,是的,非常感谢,我没有考虑过查看页面并搜索“女性”,看看这是否会产生一些结果。