python scrapy如何知道访问的链接_Python_Python 2.7_Scrapy

python scrapy如何知道访问的链接

python python-2.7 scrapy

python scrapy如何知道访问的链接,python,python-2.7,scrapy,Python,Python 2.7,Scrapy,让我们假设我正在浏览数千页然后，当我在一个页面上刮纸时，我想知道这个页面以前是否被刮过。然后，我决定是否放弃它我想知道scrapy在默认情况下是否保存被刮下的页面我试过的我将刮取的链接保存在一个文件中，然后阅读该文件以了解以前是否刮取过特定的链接。然而，我认为scrapy应该有一个内置功能来实现这一点是吗？scrapy内置了该功能，将为您过滤这些请求，请参阅 dont_filter boolean–表示调度程序不应筛选此请求。当您希望多次执行相同的请求以忽略重复项筛选器时，可使用此选项

让我们假设我正在浏览数千页

然后，当我在一个页面上刮纸时，我想知道这个页面以前是否被刮过。然后，我决定是否放弃它

我想知道scrapy在默认情况下是否保存被刮下的页面

我试过的我将刮取的链接保存在一个文件中，然后阅读该文件以了解以前是否刮取过特定的链接。然而，我认为scrapy应该有一个内置功能来实现这一点

是吗？

scrapy内置了该功能，将为您过滤这些请求，请参阅

dont_filter boolean–表示调度程序不应筛选此请求。当您希望多次执行相同的请求以忽略重复项筛选器时，可使用此选项。小心使用，否则你会陷入爬行循环。默认为False

因此，在创建请求时，您可以决定是否要重新爬网相同的url

有关更多实现信息，请参阅代码中的默认值

有一个名为“设置”的条目，以防您希望用其他重复数据消除逻辑替换默认条目

您是说解释RFPDupeFilter的工作原理吗？这是一个非常简短的代码，不是吗？对我来说不是。我不熟悉python和scrapy，我必须做这个功能，因为我要求这样做。你认为你必须添加一个新的重复过滤器吗？你的要求是什么？我有很多像这个网站的页面？页面=1，网站？页面=2。。。。。网站？page=n，每个页面都有许多链接。我想在每一页的边上废弃这些链接。此外，我想总是在网页上，但不是在他们内部的链接废料，因为网页的内容将每小时改变。例如，现在第2页中存在一个特定的链接，但一小时后该链接将出现在第3页，因为将添加新项目。明白了吗？请注意，我可以在页面和链接中删除它们