使用python scrapy选择器提取导航div中的链接_Python_Beautifulsoup_Scrapy

使用python scrapy选择器提取导航div中的链接

python scrapy

使用python scrapy选择器提取导航div中的链接,python,beautifulsoup,scrapy,Python,Beautifulsoup,Scrapy,我正在尝试提取中导航divfilterCategoryLevelOne中的所有链接我与Beautifulsoup成功合作，并提出以下要求： >> import requests >> from bs4 import BeautifulSoup >> url='http://uk.farnell.com/c/electrical' >> response = requests.get(url) >> soup = BeautifulSo

我正在尝试提取中导航divfilterCategoryLevelOne中的所有链接

我与Beautifulsoup成功合作，并提出以下要求：

>> import requests
>> from bs4 import BeautifulSoup
>> url='http://uk.farnell.com/c/electrical'
>> response = requests.get(url)
>> soup = BeautifulSoup(source.content, "html.parser")
>> mydiv = soup.findAll("nav", { "class" : "filterCategoryLevelOne" })

my_div为我提供了一个列表，其中列出了我可以提取href值的所有内容

但是，如果我对一个像下面这样的粘壳做同样的处理，我会得到其他东西：

>> scrapy shell -s USER_AGENT='Mozilla/5.0 (Linux; U; Android 2.3; en-us) AppleWebKit/999+ (KHTML, like Gecko) Safari/999.9' http://uk.farnell.com/c/electrical
>> response.xpath('//nav[@class="filterCategoryLevelOne"]')
[<Selector xpath='//nav[@class="filterCategoryLevelOne"]' data='<nav class="filterCategoryLevelOne" aria'>]

>scrapy shell-s用户_AGENT='Mozilla/5.0（Linux；U；Android 2.3；en-us）AppleWebKit/999+（KHTML，如Gecko）Safari/999.9'http://uk.farnell.com/c/electrical
>>xpath（'//nav[@class=“filterCategoryLevelOne”]'））
[]

如何在scrapy中进一步查找该div中的href值？

您可以通过以下方式直接获取所有URL：

  response.xpath('//nav[@class="filterCategoryLevelOne"]//a/@href').extract()

您是否尝试过

extract（）

或

extract\u first（）