Python Scrapy Skip命名为锚点和未命中链接

Python Scrapy Skip命名为锚点和未命中链接,python,screen-scraping,scrapy,Python,Screen Scraping,Scrapy,当我从urllib2+bs4切换到Scrapy时,我注意到Scrapy在默认设置中“巧妙地处理”了一些问题。我不太确定我是对是错,如果我错了就纠正我 (1) 默认情况下,Scrapy不会抓取重复的URL,那么什么是重复的URL呢?我注意到,在抓取的URL中,没有,例如,他们对待下面的链接是一样的。我知道这是合乎逻辑的,因为它们实际上是同一页,但是。。。。我不知道这对一些可能需要此功能的人来说是否是个好主意 www.abc.com/page1 www.abc.com/page1#top www.a

当我从urllib2+bs4切换到Scrapy时,我注意到Scrapy在默认设置中“巧妙地处理”了一些问题。我不太确定我是对是错,如果我错了就纠正我

(1) 默认情况下,Scrapy不会抓取重复的URL,那么什么是重复的URL呢?我注意到,在抓取的URL中,没有,例如,他们对待下面的链接是一样的。我知道这是合乎逻辑的,因为它们实际上是同一页,但是。。。。我不知道这对一些可能需要此功能的人来说是否是个好主意

www.abc.com/page1
www.abc.com/page1#top
www.abc.com/page2#bot 
(2) 默认情况下,Scrapy跟随仅在下的链接。如果它在LINK标记下会丢失一堆URL,我不是web开发人员,但可能还有其他标记包含默认设置中没有的URL

我不是在批评Scrapy,只是想确保我写下的这两个发现是真实的,而不是我有偏见的误解,希望能对那些想要链接标签下的URL或想要命名锚的人有所帮助

谢谢

关于第二点(问题?),关于
a
区域
标记以外的链接,请参阅。要点是,您可以通过将
标记
传递到
SgmlLinkExtractor()
,指定要查找链接的标记,其中
标记
是字符串列表,默认为
('a','area')