Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/webpack/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 当列表中有更多URL时,Import.io批量提取速度会减慢_Python_Import.io - Fatal编程技术网

Python 当列表中有更多URL时,Import.io批量提取速度会减慢

Python 当列表中有更多URL时,Import.io批量提取速度会减慢,python,import.io,Python,Import.io,我已经建立了一个Import.io批量提取,可以很好地处理50个URL。它可以在几秒钟内通过拉链拉过所有的门。然而,当我尝试提取40000个URL时,提取程序在大约前一千个URL中启动得非常快,然后在每个增量URL中逐渐变慢。到5000年,每个URL大约需要4-5秒 一个似乎有效的解决方案是将它们一次分成1000个URL的块,并对每个URL进行单独的批量提取。但是,这非常耗时,并且需要在最后将所有数据重新拼接在一起 有人经历过这种情况吗?如果有,他们有更优雅的解决方案吗 谢谢, Mike一个稍微

我已经建立了一个Import.io批量提取,可以很好地处理50个URL。它可以在几秒钟内通过拉链拉过所有的门。然而,当我尝试提取40000个URL时,提取程序在大约前一千个URL中启动得非常快,然后在每个增量URL中逐渐变慢。到5000年,每个URL大约需要4-5秒

一个似乎有效的解决方案是将它们一次分成1000个URL的块,并对每个URL进行单独的批量提取。但是,这非常耗时,并且需要在最后将所有数据重新拼接在一起

有人经历过这种情况吗?如果有,他们有更优雅的解决方案吗

谢谢,
Mike

一个稍微不那么优雅的解决方案是创建一个爬虫程序。在运行它之前,请在“开始爬网的位置”框中插入10k URL

在“高级选项”下,将“爬网深度”设置为零,这样您将只获得放置在“开始爬网的位置”输入框中的页面


这应该能奏效。另外,cawler还有许多其他选项,如页面间等待和并发页面等。

迈克,你介意再试一次吗? 我们已经研究了散装提取物,现在开始时应该稍微慢一点,但更稳定

可能40k还是太多了,在这种情况下,你可以尝试拆分,但我确实在一次跑步中跑了5k+


让我知道进展如何

你懂编程语言吗?