Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/selenium/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在24小时内从动态加载网页中获取超过50000个数据点?_Python_Selenium_Web Scraping - Fatal编程技术网

Python 如何在24小时内从动态加载网页中获取超过50000个数据点?

Python 如何在24小时内从动态加载网页中获取超过50000个数据点?,python,selenium,web-scraping,Python,Selenium,Web Scraping,我正在使用selenium python,我想知道如何在24小时内有效地抓取50000多个数据点。例如,当我在“insight.com”网页上搜索产品时,刮板搜索产品并获取其价格大约需要3.5秒,这意味着有了大量数据,刮板需要几天的时间。如果使用线程同时查找多个产品,那么如何加快此过程? 我只有一台笔记本电脑,将不得不同时刮掉其他六个类似的网站,因此不需要太多的线程,计算机运行的速度将大大降低。 人们是如何在如此短的时间内获取大量数据的?如果您停止使用selenium模块,而是使用一个更加简洁、

我正在使用selenium python,我想知道如何在24小时内有效地抓取50000多个数据点。例如,当我在“insight.com”网页上搜索产品时,刮板搜索产品并获取其价格大约需要3.5秒,这意味着有了大量数据,刮板需要几天的时间。如果使用线程同时查找多个产品,那么如何加快此过程? 我只有一台笔记本电脑,将不得不同时刮掉其他六个类似的网站,因此不需要太多的线程,计算机运行的速度将大大降低。
人们是如何在如此短的时间内获取大量数据的?

如果您停止使用
selenium
模块,而是使用一个更加简洁、优雅的模块,如
requests
,您可以在几分钟内完成这项工作


如果您设法对正在处理的请求进行反向工程,并自己发送请求,您可以将其与线程相结合,以每秒大约50个“数据点”的速度进行刮取(取决于某些因素,如处理和互联网连接速度)。

如果您停止使用
selenium
模块,您可以使用更加流畅、优雅的模块,如
请求
,只需几分钟即可完成任务


如果您设法对正在处理的请求进行反向工程,并亲自发送它们,您可以将其与线程相结合,以每秒大约50个“数据点”的速度进行刮取(取决于某些因素,如处理和internet连接速度)。

找到一个API并使用它!!!web抓取和API的目标都是访问web数据

Web scraping允许您通过使用Web scraping软件从任何网站提取数据。另一方面,API允许您直接访问所需的数据

因此,您可能会发现自己处于这样一种场景中:可能没有API来访问所需的数据,或者对API的访问可能过于有限或昂贵

在这些场景中,只要数据在网站上可用,web抓取将允许您访问数据


例如,您可以使用web scraper从Amazon提取产品数据信息,因为他们不提供API供您访问这些数据。然而,如果你能访问API,你可以抓取你想要的所有数据,超级,超级,超级快!!!这类似于在prem上的数据库中进行查询,这是非常快速和高效的,而不是刷新网页,等待所有元素加载,直到所有元素加载完毕后才能使用数据,然后……做你需要做的事情。

找到一个API并使用它!!!web抓取和API的目标都是访问web数据

Web scraping允许您通过使用Web scraping软件从任何网站提取数据。另一方面,API允许您直接访问所需的数据

因此,您可能会发现自己处于这样一种场景中:可能没有API来访问所需的数据,或者对API的访问可能过于有限或昂贵

在这些场景中,只要数据在网站上可用,web抓取将允许您访问数据

例如,您可以使用web scraper从Amazon提取产品数据信息,因为他们不提供API供您访问这些数据。然而,如果你能访问API,你可以抓取你想要的所有数据,超级,超级,超级快!!!这类似于在prem上的数据库中进行查询,这是非常快速和高效的,而不是刷新网页,等待所有元素加载,在所有元素加载之前,您无法使用数据,然后……做您需要做的事情