Python Can´;t使用scrapy提取分页链接
我想确定“下一页链接”和多页网站的碎片。 我有一种感觉,我不能用普通的方式来做,因为href内容是空的(href=“”)。请看这里:Python Can´;t使用scrapy提取分页链接,python,pagination,scrapy,Python,Pagination,Scrapy,我想确定“下一页链接”和多页网站的碎片。 我有一种感觉,我不能用普通的方式来做,因为href内容是空的(href=“”)。请看这里: <div class="publicusers-page-navigation page-navigation"> <a href="" class="current" data-page-index="1">1</a> <a href="" data-page-index="2">2</a><a
<div class="publicusers-page-navigation page-navigation">
<a href="" class="current" data-page-index="1">1</a>
<a href="" data-page-index="2">2</a><a href="" data-page-index="3">3</a>
<i>...</i>
<a href="" data-page-index="330">330</a>
<a href="" class="pagination-next" data-page-index="2">►</a>
</div>
...
我试过了
response.css('div.page-navigation>a::attr(href)')。首先提取()
但它不起作用
如果有人能帮我解决这个问题,我将不胜感激。您只需生成URL,然后解析即可
page = 0
for i in range(330):
page+=1
url = ('https://www.vdma.org/mitglieder'
'?p_p_lifecycle=2&p_p_resource_id=getPage&p_p_id'
'=vdma2publicusers_WAR_vdma2publicusers&s=&page='+str(page))
print(url)
该
节点的href
属性为空。这意味着分页最有可能是javascript生成的。你可以发布你正在爬行的网站吗?非常感谢!如何生成这些?这个url是从哪里来的?检查元素并检查网络中的POST和GET