Php 执行长时间运行的屏幕抓取脚本

Php 执行长时间运行的屏幕抓取脚本,php,curl,screen-scraping,shared-hosting,Php,Curl,Screen Scraping,Shared Hosting,我在GoDaddy共享LAMP服务器上通过命令行运行一个PHP屏幕抓取脚本 该脚本在数据库中对所需信息进行刮取、解析和存储。每页的整个过程大约需要1.5秒,并且需要刮取近10000页(对于每个页面,从另外两个页面获取cookie,使其总共有30k页curled) 整个脚本运行大约需要5个小时。我已经做了一些内存分析,内存消耗在整个运行过程中或多或少保持不变——不会增加 如果我通宵运行脚本,GoDaddy会注意到它有什么不正常的地方吗?CPU消耗不应该太多,但在5小时内每1.5秒获取3页的带宽消耗

我在GoDaddy共享LAMP服务器上通过命令行运行一个PHP屏幕抓取脚本

该脚本在数据库中对所需信息进行刮取、解析和存储。每页的整个过程大约需要1.5秒,并且需要刮取近10000页(对于每个页面,从另外两个页面获取cookie,使其总共有30k页
curl
ed)

整个脚本运行大约需要5个小时。我已经做了一些内存分析,内存消耗在整个运行过程中或多或少保持不变——不会增加


如果我通宵运行脚本,GoDaddy会注意到它有什么不正常的地方吗?CPU消耗不应该太多,但在5小时内每1.5秒获取3页的带宽消耗会有多大?足以引起戈达迪那边的警报


如果是的话,我想我可以把脚本分解成1500页,然后停下来一个小时,然后继续。我应该这样做吗?

为了不让问题悬而未决,我将发布答案:

我连夜写剧本。运行了大约5个小时,GoDaddy也没有终止,我也没有收到任何通知,所以我想他们也没问题


最初我遇到了内存问题,脚本可能会耗尽分配给我的内存,但显然这是PHP5.3之前的错误(更多详细信息)。一旦修复,它将在整个过程中停留在32-34MB的RAM使用率。没有CPU消耗或带宽使用的线索。

试试看,戈达迪会告诉你的。然后,您可以在以后决定如何解决具体(而不是想象的)问题。“如果我通宵运行脚本,GoDaddy会注意到它有什么不正常的地方吗?CPU消耗不应该太多,但在5小时内每1.5秒获取3页的带宽消耗会有多大?足以引起戈达迪那边的警报?“戈达迪不必等你来运行它。通过阅读这里的内容,他们可以看到你要这么做。屏幕抓取是收集信息的一种非常糟糕的方式,如果你要在3万页的页面上运行,你不认为最好从网站上寻找API或数据源吗?@theTinMan我怀疑他们会扫描StackOverflow上的每个问题,以免有人提及什么。此外,我并不担心他们会因为我的剧本“不道德”而关闭它。我担心它可能会消耗资源,引起警报。无论如何,我昨晚运行了它,没有任何问题,所以一切都很好。PS-没有API。我当时正在清理我所在大学的课程目录,以便向其他人提供RESTful API。我想知道为什么@theTinMan认为“屏幕清理是一种非常糟糕的信息收集方式”。捕获现有数据并以新的方式为您的特定用户使用它似乎是有益的,而且肯定是一种获取和呈现数据的高效方式。是否假设您正在偷窃,因此唯一正确的做法是通过公司法律委员会并请求许可(如果事实上不存在API)?当然,如果你从他们的工作中获利,你可能需要付钱,但在此之前,这就类似于请求允许在你的聚会上播放一张唱片。不