python scrapy如何知道访问的链接

python scrapy如何知道访问的链接,python,python-2.7,scrapy,Python,Python 2.7,Scrapy,让我们假设我正在浏览数千页 然后,当我在一个页面上刮纸时,我想知道这个页面以前是否被刮过。然后,我决定是否放弃它 我想知道scrapy在默认情况下是否保存被刮下的页面 我试过的 我将刮取的链接保存在一个文件中,然后阅读该文件以了解以前是否刮取过特定的链接。然而,我认为scrapy应该有一个内置功能来实现这一点 是吗?scrapy内置了该功能,将为您过滤这些请求,请参阅 dont_filter boolean–表示调度程序不应筛选此请求。当您希望多次执行相同的请求以忽略重复项筛选器时,可使用此选项

让我们假设我正在浏览数千页

然后,当我在一个页面上刮纸时,我想知道这个页面以前是否被刮过。然后,我决定是否放弃它

我想知道scrapy在默认情况下是否保存被刮下的页面

我试过的 我将刮取的链接保存在一个文件中,然后阅读该文件以了解以前是否刮取过特定的链接。然而,我认为scrapy应该有一个内置功能来实现这一点


是吗?

scrapy内置了该功能,将为您过滤这些请求,请参阅

dont_filter boolean–表示调度程序不应筛选此请求。当您希望多次执行相同的请求以忽略重复项筛选器时,可使用此选项。小心使用,否则你会陷入爬行循环。默认为False

因此,在创建请求时,您可以决定是否要重新爬网相同的url

有关更多实现信息,请参阅代码中的默认值


有一个名为“设置”的条目,以防您希望用其他重复数据消除逻辑替换默认条目

您是说解释RFPDupeFilter的工作原理吗?这是一个非常简短的代码,不是吗?对我来说不是。我不熟悉python和scrapy,我必须做这个功能,因为我要求这样做。你认为你必须添加一个新的重复过滤器吗?你的要求是什么?我有很多像这个网站的页面?页面=1,网站?页面=2。。。。。网站?page=n,每个页面都有许多链接。我想在每一页的边上废弃这些链接。此外,我想总是在网页上,但不是在他们内部的链接废料,因为网页的内容将每小时改变。例如,现在第2页中存在一个特定的链接,但一小时后该链接将出现在第3页,因为将添加新项目。明白了吗?请注意,我可以在页面和链接中删除它们