Python 从网站到我的数据库的自动数据收集?
我有一个基于Django的网站,它使用一个托管在WebPosition上的PostgreSQL数据库。我通常从另一个网站手动收集数据库的数据(复制粘贴到文本文件中),该网站在HTML表中列出了单个网页上的所有数据 至于用Python自动收集数据,我想我应该使用html5lib或Scrapy之类的东西来编写一个脚本,加载网页,找到我想要的HTML表,从中提取数据,将其格式化为JSON,然后使用Python 从网站到我的数据库的自动数据收集?,python,django,webfaction,Python,Django,Webfaction,我有一个基于Django的网站,它使用一个托管在WebPosition上的PostgreSQL数据库。我通常从另一个网站手动收集数据库的数据(复制粘贴到文本文件中),该网站在HTML表中列出了单个网页上的所有数据 至于用Python自动收集数据,我想我应该使用html5lib或Scrapy之类的东西来编写一个脚本,加载网页,找到我想要的HTML表,从中提取数据,将其格式化为JSON,然后使用 manage.py loaddata fixturename.json 将数据加载到数据库中。不过,我
manage.py loaddata fixturename.json
将数据加载到数据库中。不过,我的问题是,如何让此脚本每天在Web派系的服务器上自动运行一次?您可以使用YQL来为您废弃网站,并以json格式返回结果。我广泛使用YQL来获取我的应用程序的数据。它速度快,而且您的服务器不必为此承担负载 要每天运行一次脚本,可以尝试将其添加到cron作业中
您可以使用YQL为您废弃网站,并以json格式返回结果。我广泛使用YQL为我的应用程序获取数据。它速度快,而且您的服务器不必为此承担负载 要每天运行一次脚本,可以尝试将其添加到cron作业中 您可以使用来安排任务 您的crontab文件可能如下所示:
# Minute Hour Day of Month Month Day of Week Command
# (0-59) (0-23) (1-31) (1-12 or Jan-Dec) (0-6 or Sun-Sat)
0 1 * * * /usr/bin/python manage.py loaddata fixturename.json
(也可以使用@daily/usr/bin/python manage.py loaddata fixturename.json
在每晚午夜运行)
请参阅WebParty文档:您可以使用它来安排任务
您的crontab文件可能如下所示:
# Minute Hour Day of Month Month Day of Week Command
# (0-59) (0-23) (1-31) (1-12 or Jan-Dec) (0-6 or Sun-Sat)
0 1 * * * /usr/bin/python manage.py loaddata fixturename.json
(也可以使用@daily/usr/bin/python manage.py loaddata fixturename.json
在每晚午夜运行)
请参阅webpartion文档:您想运行CRON作业。这是一种简单的方法,可以让服务器按照您设置的任何计划运行作业一次或多次
还要确保您有权限对其他人的内容进行屏幕刮取。您想运行CRON作业。这是一种简单的方法,可以让服务器按照您设置的任何计划运行作业一次或多次
还要确保您有权限对其他人的内容进行屏幕抓取。Cron或celerybeat是不错的选择。Cron更容易,芹菜给你更多的控制
Cron或celerybeat是不错的选择。Cron更容易,芹菜给你更多的控制