Python scrapy爬行蜘蛛不跟随带有限制路径的链接_Python_Xpath_Scrapy_Web Crawler_E Commerce

Python scrapy爬行蜘蛛不跟随带有限制路径的链接

python xpath scrapy web-crawler e-commerce

Python scrapy爬行蜘蛛不跟随带有限制路径的链接,python,xpath,scrapy,web-crawler,e-commerce,Python,Xpath,Scrapy,Web Crawler,E Commerce,我正在尝试使用Scrapy的爬行蜘蛛从电子商务网站上爬行产品：蜘蛛必须通过以下两种方式之一浏览网站：如果链接是类别、子类别或下一页：爬行器必须只跟随链接如果链接是产品页面：爬行器必须调用特殊的解析方法来提取产品数据这是我的蜘蛛代码： from scrapy.spiders import CrawlSpider, Rule from ecommerce.items import EcommerceItem from scrapy.linkextractors import LinkExtr

我正在尝试使用Scrapy的爬行蜘蛛从电子商务网站上爬行产品：蜘蛛必须通过以下两种方式之一浏览网站：

如果链接是类别、子类别或下一页：爬行器必须只跟随链接

如果链接是产品页面：爬行器必须调用特殊的解析方法来提取产品数据

这是我的蜘蛛代码：

from scrapy.spiders import CrawlSpider, Rule
from ecommerce.items import EcommerceItem
from scrapy.linkextractors import LinkExtractor


class ecommerce(CrawlSpider):
      name = "ecommerce"
      allowed_domains = ['HarveyNorman.com.au']
      start_urls = ['https://www.HarveyNorman.com.au/']

      rules = (
          Rule(
              LinkExtractor(restrict_xpaths=[
                  "//*[@id='wrapper']/div[2]/div[1]/div/div/ul/li/ul/li/ul/li/ul/li/a",
                  "//*[@id='content']/div[2]/div[1]/div/div[2]/div/div/div/div[2]/div/a",
                  "//*[@id='toolbar-btm']/div/div[4]/div/ol/li[7]/a",
                  "//*[@id='toolbar-btm']/div/div[4]/div/ol/li[6]/a"]),
              follow=True
          ),
          Rule(
              LinkExtractor(restrict_xpaths="//*[@id='category-grid']/div/div/div[3]/a"),
              callback='parse_main_item'
          ),
      )

      def parse_main_item(self, response):
          #I put anything here for the moment.
          item = EcommerceItem()
          return item

要运行spider并将结果保存在csv文件中，我执行以下命令：

scrapy crawl ecommerce -t csv -o ec.csv

我的爬行器停止在起始url上，不跟随任何链接，这是它的输出：

ScrapyDeprecationWarning: ('The -t command line option is deprecated in favor of specifying     the output format within the output URI. See the documentation of the -o and -O options for more information.',)
  feeds = feed_process_params_from_cli(
2021-02-26 21:55:53 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: ecommerce)
2021-02-26 21:55:53 [scrapy.utils.log] INFO: Versions: lxml 4.6.2.0, libxml2 2.9.10,     cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.5 (default, Jan 27 2021,     15:41:15) - [GCC 9.3.0], pyOpenSSL 20.0.1 (OpenSSL 1.1.1f  31 Mar 2020), cryptography 2.8,     Platform Linux-5.8.0-43-generic-x86_64-with-glibc2.29
2021-02-26 21:55:53 [scrapy.utils.log] DEBUG: Using reactor:     twisted.internet.epollreactor.EPollReactor
2021-02-26 21:55:53 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'ecommerce',
 'DOWNLOAD_DELAY': 0.25,
 'NEWSPIDER_MODULE': 'ecommerce.spiders',
 'SPIDER_MODULES': ['ecommerce.spiders']}
2021-02-26 21:55:53 [scrapy.extensions.telnet] INFO: Telnet Password: 5dccfc3692d38bc5
2021-02-26 21:55:54 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats']
2021-02-26 21:55:54 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2021-02-26 21:55:54 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2021-02-26 21:55:54 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2021-02-26 21:55:54 [scrapy.core.engine] INFO: Spider opened
2021-02-26 21:55:54 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min),     scraped 0 items (at 0 items/min)
2021-02-26 21:55:54 [scrapy.extensions.telnet] INFO: Telnet console listening on     127.0.0.1:6023
2021-02-26 21:55:56 [scrapy.core.engine] DEBUG: Crawled (200) <GET     https://www.HarveyNorman.com.au/> (referer: None)
2021-02-26 21:55:57 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to     'www.harveynorman.com.au': <GET https://www.harveynorman.com.au/computers-tablets/computers    /laptops>
2021-02-26 21:55:57 [scrapy.core.engine] INFO: Closing spider (finished)
2021-02-26 21:55:57 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 223,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 72967,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'elapsed_time_seconds': 3.584481,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2021, 2, 26, 20, 55, 57, 930058),
 'log_count/DEBUG': 2,
 'log_count/INFO': 10,
 'memusage/max': 54886400,
 'memusage/startup': 54886400,
 'offsite/domains': 1,
 'offsite/filtered': 577,
 'request_depth_max': 1,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2021, 2, 26, 20, 55, 54, 345577)}
2021-02-26 21:55:57 [scrapy.core.engine] INFO: Spider closed (finished)

scrapydeproductionwarning:（“不推荐使用-t命令行选项，而赞成在输出URI中指定输出格式。有关详细信息，请参阅-o和-o选项的文档”。）
feed=来自cli的feed\进程\参数(
2021-02-26 21:55:53[scrapy.utils.log]信息：scrapy 2.4.1已启动（机器人程序：电子商务）
2021-02-26 21:55:53[scrapy.utils.log]信息：版本：lxml 4.6.2.0，libxml2.9.10，cssselect 1.1.0，parsel 1.6.0，w3lib 1.22.0，Twisted 20.3.0，Python 3.8.5（默认，2021年1月27日，15:41:15）-[GCC 9.3.0]，pyOpenSSL 20.0.1（OpenSSL 1.1.1.1f 2020年3月31日），密码学2.8，平台Linux-5.8.8.0-43-generic-x86\u-bc2.29
2021-02-26 21:55:53[scrapy.utils.log]调试：使用reactor:twisted.internet.epollreactor.epollreactor
2021-02-26 21:55:53[刮屑爬虫]信息：覆盖设置：
{'BOT_NAME'：'ecommerce'，
“下载延迟”：0.25，
“NEWSPIDER_模块”：“电子商务蜘蛛”，
“SPIDER_模块”：['ecommerce.SPIDER']}
2021-02-26 21:55:53[scrapy.extensions.telnet]信息：telnet密码：5dccfc3692d38bc5
2021-02-26 21:55:54[scrapy.middleware]信息：启用的扩展：
['scrapy.extensions.corestats.corestats'，
'scrapy.extensions.telnet.TelnetConsole'，
'scrapy.extensions.memusage.MemoryUsage'，
'scrapy.extensions.feedexport.FeedExporter'，
'scrapy.extensions.logstats.logstats']
2021-02-26 21:55:54[scrapy.middleware]信息：启用的下载程序中间件：
['scrapy.downloaderMiddleware.httpauth.HttpAuthMiddleware'，
'scrapy.downloadermiddleware.downloadtimeout.DownloadTimeoutMiddleware'，
'scrapy.downloaderMiddleware.defaultheaders.DefaultHeadersMiddleware'，
'scrapy.DownloaderMiddleware.useragent.UserAgentMiddleware'，
'scrapy.DownloaderMiddleware.retry.RetryMiddleware'，
'scrapy.DownloaderMiddleware.redirect.MetaRefreshMiddleware'，
'scrapy.DownloaderMiddleware.httpcompression.HttpCompressionMiddleware'，
'scrapy.DownloaderMiddleware.redirect.RedirectMiddleware'，
“scrapy.DownloaderMiddleware.cookies.CookiesMiddleware”，
'scrapy.downloadermiddleware.httpproxy.HttpProxyMiddleware'，
'scrapy.downloadermiddleware.stats.DownloaderStats']
2021-02-26 21:55:54[scrapy.middleware]信息：启用的蜘蛛中间件：
['scrapy.spidermiddleware.httperror.httperror中间件'，
'刮皮.SpiderMiddleware.场外.场外Iddleware'，
“scrapy.Spidermiddleware.referer.RefererMiddleware”，
'scrapy.spiderMiddleware.urllength.UrlLengthMiddleware'，
'scrapy.spidermiddleware.depth.DepthMiddleware']
2021-02-26 21:55:54[scrapy.middleware]信息：启用的项目管道：
[]
2021-02-26 21:55:54[刮屑.堆芯.发动机]信息：十字轴已打开
2021-02-26 21:55:54[scrapy.extensions.logstats]信息：爬网0页（0页/分钟），爬网0项（0项/分钟）
2021-02-26 21:55:54[scrapy.extensions.telnet]信息：telnet控制台监听127.0.0.1:6023
2021-02-26 21:55:56[scrapy.core.engine]调试：爬网（200）（参考：无）
2021-02-26 21:55:57[scrapy.spidermiddleware.offsite]调试：过滤到“www.harveynorman.com.au”的非现场请求：
2021-02-26 21:55:57[刮屑芯发动机]信息：关闭卡盘（完成）
2021-02-26 21:55:57[scrapy.statscollectors]信息：转储scrapy统计信息：
{'downloader/request_bytes'：223，
“下载程序/请求计数”：1，
“downloader/request\u method\u count/GET”：1，
“downloader/response_字节”：72967，
“下载程序/响应计数”：1，
“下载程序/响应状态\计数/200”：1，
“已用时间秒”：3.584481，
“完成原因”：“完成”，
“完成时间”：datetime.datetime（2021,2,26,20,55,57930058），
“日志计数/调试”：2，
“日志计数/信息”：10，
“memusage/max”：54886400，
“memusage/startup”：54886400，
“异地/域”：1，
“场外/过滤”：577，
“请求深度最大值”：1，
“响应\u已接收\u计数”：1，
“调度程序/出列”：1，
“调度程序/出列/内存”：1，
“调度程序/排队”：1，
“调度程序/排队/内存”：1，
“开始时间”：datetime.datetime（2021,2,26,20,55,54345577）}
2021-02-26 21:55:57[刮屑芯发动机]信息：十字轴关闭（完成）

有什么解决方案吗？

您好，您的xpath是

/*[@id='wrapper']/div[2]/div[1]/div/div/ul/li/ul/li/li/a

你必须写

/*[@id='wrapper']/div[2]/div[1]/div/div/ul/li/ul/ul/li/li/a/@href

因为scrapy不知道URL在哪里。

我发现了问题：输出行：

[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to     'www.harveynorman.com.au': <GET https://www.harveynorman.com.au/computers-tablets/computers    /laptops>

作者：

您好，您尝试过这个吗？因为我知道；restrict\u xpath指向元素，而不是属性。当我尝试添加/a/@href时，我得到以下错误：AttributeError:“str”对象没有属性“iter”。以下问题与我的回答相同：

allowed_domains = ['HarveyNorman.com.au']

allowed_domains = ['harveynorman.com.au']