Python Scrapy Skip命名为锚点和未命中链接_Python_Screen Scraping_Scrapy

Python Scrapy Skip命名为锚点和未命中链接

python scrapy

Python Scrapy Skip命名为锚点和未命中链接,python,screen-scraping,scrapy,Python,Screen Scraping,Scrapy,当我从urllib2+bs4切换到Scrapy时，我注意到Scrapy在默认设置中“巧妙地处理”了一些问题。我不太确定我是对是错，如果我错了就纠正我（1）默认情况下，Scrapy不会抓取重复的URL，那么什么是重复的URL呢？我注意到，在抓取的URL中，没有，例如，他们对待下面的链接是一样的。我知道这是合乎逻辑的，因为它们实际上是同一页，但是。。。。我不知道这对一些可能需要此功能的人来说是否是个好主意 www.abc.com/page1 www.abc.com/page1#top www.a

当我从urllib2+bs4切换到Scrapy时，我注意到Scrapy在默认设置中“巧妙地处理”了一些问题。我不太确定我是对是错，如果我错了就纠正我

（1）默认情况下，Scrapy不会抓取重复的URL，那么什么是重复的URL呢？我注意到，在抓取的URL中，没有，例如，他们对待下面的链接是一样的。我知道这是合乎逻辑的，因为它们实际上是同一页，但是。。。。我不知道这对一些可能需要此功能的人来说是否是个好主意

www.abc.com/page1
www.abc.com/page1#top
www.abc.com/page2#bot

（2）默认情况下，Scrapy跟随仅在下的链接。如果它在LINK标记下会丢失一堆URL，我不是web开发人员，但可能还有其他标记包含默认设置中没有的URL

我不是在批评Scrapy，只是想确保我写下的这两个发现是真实的，而不是我有偏见的误解，希望能对那些想要链接标签下的URL或想要命名锚的人有所帮助

谢谢

关于第二点（问题？），关于

或

区域

标记以外的链接，请参阅。要点是，您可以通过将

标记

传递到

SgmlLinkExtractor（）

，指定要查找链接的标记，其中

标记

是字符串列表，默认为

（'a'，'area'）