Python 没有列表页面,但我知道每个项目页面的url

Python 没有列表页面,但我知道每个项目页面的url,python,scrapy,Python,Scrapy,我在用Scrapy刮网站。我要刮取的项目页面如下所示:。其中x是从1到100的任意数字。因此,我有一个SgmlLinkExractor规则,其中为任何类似这样的页面指定了回调函数 该网站没有包含所有项目的列表页,因此我想以某种方式很好地删除这些URL(从1到100)。这家伙似乎也有同样的问题,但无法解决 有人有解决方案吗?如果只是一次性的,您可以创建一个本地html文件file:///c:/somefile.html包含所有链接。开始抓取该文件并将somepage.com添加到允许的域中 或者,

我在用Scrapy刮网站。我要刮取的项目页面如下所示:。其中
x
是从
1
100
的任意数字。因此,我有一个
SgmlLinkExractor
规则,其中为任何类似这样的页面指定了回调函数

该网站没有包含所有项目的列表页,因此我想以某种方式很好地删除这些URL(从
1
100
)。这家伙似乎也有同样的问题,但无法解决


有人有解决方案吗?

如果只是一次性的,您可以创建一个本地html文件
file:///c:/somefile.html
包含所有链接。开始抓取该文件并将
somepage.com
添加到允许的域中


或者,在parse函数中,您可以返回一个新请求,该请求是下一个要刮取的url

您可以在类的属性中列出所有已知URL:

class SomepageSpider(BaseSpider):
    name = 'somepage.com'
    allowed_domains = ['somepage.com']
    start_urls = ['http://www.somepage.com/itempage/&page=%s' % page for page in xrange(1, 101)]

    def parse(self, response):
        # ...