如何使用Scrapy在论坛上刮取其他特定页面？_Scrapy

如何使用Scrapy在论坛上刮取其他特定页面？

scrapy

如何使用Scrapy在论坛上刮取其他特定页面？,scrapy,Scrapy,我有一个脏兮兮的爬虫，可以从论坛上抓取一些指南。我试图抓取数据的论坛有很多页面。问题是我无法提取我想要的链接，因为没有特定的类或ID可供选择。 url结构如下所示：显然，我可以将desc&page=1后的数字改为2、3、4等等，但我想知道这样做的最佳选择是什么。我怎样才能做到这一点 PS：这是蜘蛛代码我似乎无法打开论坛URL（总是将我重定向到另一个网站），因此这里有一个尽最大努力的建议：如果线程页面上有指向其他页面的链接，则可以创建一个爬虫规则来显式跟踪这些链接。使用爬行式爬行器：

我有一个脏兮兮的爬虫，可以从论坛上抓取一些指南。我试图抓取数据的论坛有很多页面。问题是我无法提取我想要的链接，因为没有特定的类或ID可供选择。 url结构如下所示：显然，我可以将desc&page=1后的数字改为2、3、4等等，但我想知道这样做的最佳选择是什么。我怎样才能做到这一点

PS：这是蜘蛛代码

我似乎无法打开论坛URL（总是将我重定向到另一个网站），因此这里有一个尽最大努力的建议：

如果线程页面上有指向其他页面的链接，则可以创建一个爬虫规则来显式跟踪这些链接。使用爬行式爬行器：

类指南爬行器（爬行爬行器）：
name=“指南”
允许的_域=['www.guides.com']
起始URL=[
"http://www.guides.com/forums/forumdisplay.php?f=108&order=desc&page=1",
]
规则=[
规则（SgmlLinkExtractor（allow=（“forumdisplay.php.*f=108.*page=”，callback='parse_item'，follow=True）），
]
def解析_项（自身、响应）：
#你的代码
...

爬行器应自动消除重复数据请求，即即使有两个页面链接到同一URL，它也不会两次跟随同一URL。如果页面上有非常相似的URL，但只有一个或两个查询参数不同（例如，

order=asc

），则可以在规则构造函数中指定

deny=（…）

，以将其过滤掉。

尝试使用