Python 使用scrapy从表中刮取链接
使用scrapy从表中刮取链接。 选项卡的格式如下:Python 使用scrapy从表中刮取链接,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,使用scrapy从表中刮取链接。 选项卡的格式如下: <tr> <td> <a href="url">Link name 1</a> and <a href="url">Link name 2</a> </td> <td> Item 2</td> <td align="center"> <a href="url">Link name 3</a> <
<tr>
<td> <a href="url">Link name 1</a> and <a href="url">Link name 2</a> </td>
<td> Item 2</td>
<td align="center"> <a href="url">Link name 3</a> </td>
<td> Item 4</td>
<td> Item 5</td>
</tr>
它只返回文本值
[u' Item 2', u' Item 4', u' Item 5']
我想列出包含链接名为1、链接名为2、链接名为3的URL,您可以尝试使用以下XPath获取所需链接:
row.select('td/a/@href').extract()
我不知道
scrapy
,但我的gues应该是td/text()
extract应该不同于scraplinks=)td/text()只适用于文本项目。
row.select('td/a/@href').extract()