Web scraping 自主运行python web抓取脚本

Web scraping 自主运行python web抓取脚本,web-scraping,automation,Web Scraping,Automation,我有一个用python编写的网页抓取脚本,它可以访问特定的网站,使用我的凭据登录,并执行一些操作(如按下一些按钮等)。 我希望在特定的时间间隔运行此脚本(例如,在上午8点到下午3点之间每1小时运行一次) 我发现像cron jobs这样的东西能够处理时间部分。但我也希望它独立于我的设备运行。因此,我想知道是否有可能将代码托管在某台服务器上,并使其在所述时间自动运行。确保它可以远程运行,有许多选项可供选择。 例如,您可以使用(该示例使用nodejs web服务器,但也可以使用python脚本)并创建

我有一个用python编写的网页抓取脚本,它可以访问特定的网站,使用我的凭据登录,并执行一些操作(如按下一些按钮等)。 我希望在特定的时间间隔运行此脚本(例如,在上午8点到下午3点之间每1小时运行一次)


我发现像cron jobs这样的东西能够处理时间部分。但我也希望它独立于我的设备运行。因此,我想知道是否有可能将代码托管在某台服务器上,并使其在所述时间自动运行。

确保它可以远程运行,有许多选项可供选择。 例如,您可以使用(该示例使用nodejs web服务器,但也可以使用python脚本)并创建一个运行python脚本的处理程序文件,然后使用cloudwatch事件来计划它的运行(以类似cron的方式编辑)

问题是,你想对刮削的结果做什么。毕竟,你可能想把它保存在某个地方

因此,有多种选择,我现在可以想到的两种选择是:

  • 保存到RDS(DB)
  • 将其另存为S3上的文件