Python 没有列表页面，但我知道每个项目页面的url_Python_Scrapy

Python 没有列表页面，但我知道每个项目页面的url

python scrapy

Python 没有列表页面，但我知道每个项目页面的url,python,scrapy,Python,Scrapy,我在用Scrapy刮网站。我要刮取的项目页面如下所示：。其中x是从1到100的任意数字。因此，我有一个SgmlLinkExractor规则，其中为任何类似这样的页面指定了回调函数该网站没有包含所有项目的列表页，因此我想以某种方式很好地删除这些URL（从1到100）。这家伙似乎也有同样的问题，但无法解决有人有解决方案吗？如果只是一次性的，您可以创建一个本地html文件file:///c:/somefile.html包含所有链接。开始抓取该文件并将somepage.com添加到允许的域中或者，

我在用Scrapy刮网站。我要刮取的项目页面如下所示：。其中

是从

到

的任意数字。因此，我有一个

SgmlLinkExractor

规则，其中为任何类似这样的页面指定了回调函数

该网站没有包含所有项目的列表页，因此我想以某种方式很好地删除这些URL（从

到

）。这家伙似乎也有同样的问题，但无法解决

有人有解决方案吗？

如果只是一次性的，您可以创建一个本地html文件

file:///c:/somefile.html

包含所有链接。开始抓取该文件并将

somepage.com

添加到允许的域中

或者，在parse函数中，您可以返回一个新请求，该请求是下一个要刮取的url

您可以在类的属性中列出所有已知URL：

class SomepageSpider(BaseSpider):
    name = 'somepage.com'
    allowed_domains = ['somepage.com']
    start_urls = ['http://www.somepage.com/itempage/&page=%s' % page for page in xrange(1, 101)]

    def parse(self, response):
        # ...