Web Scraping(Python)多请求运行时太慢

Web Scraping(Python)多请求运行时太慢,python,web-scraping,beautifulsoup,request,Python,Web Scraping,Beautifulsoup,Request,我正在做一个个人项目,我需要做多个请求,从不同的页面(~800个请求)中刮取关键字和抽象数据。每次运行我的程序,都要花费30分钟来刮取所有数据 我在考虑两种加速运行时间的方法: 将数据读入CSV文件一次,然后使用panada从CSV文件中读取数据,以备将来参考 创建一个MySQL数据库并在其中存储数据 这两种方法可行吗?如果我能得到一些见解,那就太好了。 感谢具有刮取方面的一些经验在使用请求库进行获取和发布时,您有多种选择。->请记住要继续上课 或者使用一个框架作为 以最佳方式刮取的主要方法是:

我正在做一个个人项目,我需要做多个请求,从不同的页面(~800个请求)中刮取关键字和抽象数据。每次运行我的程序,都要花费30分钟来刮取所有数据

我在考虑两种加速运行时间的方法:

  • 将数据读入CSV文件一次,然后使用panada从CSV文件中读取数据,以备将来参考
  • 创建一个MySQL数据库并在其中存储数据
  • 这两种方法可行吗?如果我能得到一些见解,那就太好了。
    感谢具有刮取方面的一些经验在使用请求库进行获取和发布时,您有多种选择。->请记住要继续上课

    或者使用一个框架作为

    以最佳方式刮取的主要方法是:

  • 分工合作[1]
  • 使用大量尝试/异常处理并保存错误[2]
  • 如果您正在刮取批量率,请限制您的请求,以避免被阻止[3]
  • 保存每个步骤的信息 如果丢失,请使用浏览器上的“检查”工具查看网络呼叫:)

    [1] -超时非常耗时,将停止进程,直到出现超时异常,拆分工作将有助于解决此问题。 [2] -可能会发生多个错误,只需一个简单错误即可“停止”所有工作。使用“尝试并捕获异常”将允许您保存错误,并在以后对其进行处理。保存您正在工作的位置将允许您稍后继续


    [3] -如果您按分钟提出多个合理的请求,某些网站会阻止您。

    仅供参考,这是“刮”和“刮”而不是“刮”或“刮”您是对的@barny。谢谢你纠正我。这让我检查并纠正了我的假设!!再次感谢你,这是刮(刮,刮,刮)而不是刮。”“报废”的意思是像垃圾一样扔掉。