如何使用Scrapy在论坛上刮取其他特定页面?

如何使用Scrapy在论坛上刮取其他特定页面?,scrapy,Scrapy,我有一个脏兮兮的爬虫,可以从论坛上抓取一些指南。 我试图抓取数据的论坛有很多页面。 问题是我无法提取我想要的链接,因为没有特定的类或ID可供选择。 url结构如下所示: 显然,我可以将desc&page=1后的数字改为2、3、4等等,但我想知道这样做的最佳选择是什么。 我怎样才能做到这一点 PS:这是蜘蛛代码 我似乎无法打开论坛URL(总是将我重定向到另一个网站),因此这里有一个尽最大努力的建议: 如果线程页面上有指向其他页面的链接,则可以创建一个爬虫规则来显式跟踪这些链接。使用爬行式爬行器:

我有一个脏兮兮的爬虫,可以从论坛上抓取一些指南。 我试图抓取数据的论坛有很多页面。 问题是我无法提取我想要的链接,因为没有特定的类或ID可供选择。 url结构如下所示: 显然,我可以将desc&page=1后的数字改为2、3、4等等,但我想知道这样做的最佳选择是什么。 我怎样才能做到这一点

PS:这是蜘蛛代码

我似乎无法打开论坛URL(总是将我重定向到另一个网站),因此这里有一个尽最大努力的建议:

如果线程页面上有指向其他页面的链接,则可以创建一个爬虫规则来显式跟踪这些链接。使用爬行式爬行器:

类指南爬行器(爬行爬行器):
name=“指南”
允许的_域=['www.guides.com']
起始URL=[
"http://www.guides.com/forums/forumdisplay.php?f=108&order=desc&page=1",
]
规则=[
规则(SgmlLinkExtractor(allow=(“forumdisplay.php.*f=108.*page=”,callback='parse_item',follow=True)),
]
def解析_项(自身、响应):
#你的代码
...
爬行器应自动消除重复数据请求,即即使有两个页面链接到同一URL,它也不会两次跟随同一URL。如果页面上有非常相似的URL,但只有一个或两个查询参数不同(例如,
order=asc
),则可以在规则构造函数中指定
deny=(…)
,以将其过滤掉。

尝试使用