Python 从网站到我的数据库的自动数据收集?

Python 从网站到我的数据库的自动数据收集?,python,django,webfaction,Python,Django,Webfaction,我有一个基于Django的网站,它使用一个托管在WebPosition上的PostgreSQL数据库。我通常从另一个网站手动收集数据库的数据(复制粘贴到文本文件中),该网站在HTML表中列出了单个网页上的所有数据 至于用Python自动收集数据,我想我应该使用html5lib或Scrapy之类的东西来编写一个脚本,加载网页,找到我想要的HTML表,从中提取数据,将其格式化为JSON,然后使用 manage.py loaddata fixturename.json 将数据加载到数据库中。不过,我

我有一个基于Django的网站,它使用一个托管在WebPosition上的PostgreSQL数据库。我通常从另一个网站手动收集数据库的数据(复制粘贴到文本文件中),该网站在HTML表中列出了单个网页上的所有数据

至于用Python自动收集数据,我想我应该使用html5lib或Scrapy之类的东西来编写一个脚本,加载网页,找到我想要的HTML表,从中提取数据,将其格式化为JSON,然后使用

manage.py loaddata fixturename.json

将数据加载到数据库中。不过,我的问题是,如何让此脚本每天在Web派系的服务器上自动运行一次?

您可以使用YQL来为您废弃网站,并以json格式返回结果。我广泛使用YQL来获取我的应用程序的数据。它速度快,而且您的服务器不必为此承担负载

要每天运行一次脚本,可以尝试将其添加到cron作业中


您可以使用YQL为您废弃网站,并以json格式返回结果。我广泛使用YQL为我的应用程序获取数据。它速度快,而且您的服务器不必为此承担负载

要每天运行一次脚本,可以尝试将其添加到cron作业中

您可以使用来安排任务

您的crontab文件可能如下所示:

# Minute   Hour   Day of Month       Month          Day of Week        Command    
# (0-59)  (0-23)     (1-31)    (1-12 or Jan-Dec)  (0-6 or Sun-Sat)                
    0        1          *             *               *           /usr/bin/python manage.py loaddata fixturename.json
(也可以使用
@daily/usr/bin/python manage.py loaddata fixturename.json
在每晚午夜运行)

请参阅WebParty文档:

您可以使用它来安排任务

您的crontab文件可能如下所示:

# Minute   Hour   Day of Month       Month          Day of Week        Command    
# (0-59)  (0-23)     (1-31)    (1-12 or Jan-Dec)  (0-6 or Sun-Sat)                
    0        1          *             *               *           /usr/bin/python manage.py loaddata fixturename.json
(也可以使用
@daily/usr/bin/python manage.py loaddata fixturename.json
在每晚午夜运行)


请参阅webpartion文档:

您想运行CRON作业。这是一种简单的方法,可以让服务器按照您设置的任何计划运行作业一次或多次


还要确保您有权限对其他人的内容进行屏幕刮取。

您想运行CRON作业。这是一种简单的方法,可以让服务器按照您设置的任何计划运行作业一次或多次


还要确保您有权限对其他人的内容进行屏幕抓取。

Cron或celerybeat是不错的选择。Cron更容易,芹菜给你更多的控制


Cron或celerybeat是不错的选择。Cron更容易,芹菜给你更多的控制