Python GAE:计划从第三方站点导入大gzip文件
我正在开发一个Python web应用程序,它需要定期从第三方网站导入大的(按照GAE限制)Gzip文件。想想rdf exports,DMOZ项目定期生产 这意味着每天获取一个500+MB的gzip文件,对其进行压缩、解析、处理,并将结果存储在GAE的数据存储中供以后使用Python GAE:计划从第三方站点导入大gzip文件,python,google-app-engine,Python,Google App Engine,我正在开发一个Python web应用程序,它需要定期从第三方网站导入大的(按照GAE限制)Gzip文件。想想rdf exports,DMOZ项目定期生产 这意味着每天获取一个500+MB的gzip文件,对其进行压缩、解析、处理,并将结果存储在GAE的数据存储中供以后使用 考虑到最大下载、处理时间等的限制,在GAE上实现此功能的正确方法是什么?我最初的直觉反应(不知道gzip文件中有什么内容)是在其他地方(AWS?)进行处理然后将处理后的数据以较小的位数推送到GAE应用程序。应用程序引擎中的下载
考虑到最大下载、处理时间等的限制,在GAE上实现此功能的正确方法是什么?我最初的直觉反应(不知道gzip文件中有什么内容)是在其他地方(AWS?)进行处理然后将处理后的数据以较小的位数推送到GAE应用程序。应用程序引擎中的下载文件大小限制当前为64MB。因此,您有两个选择:
- 使用HTTP范围标头下载并分块处理文件
- 使用外部服务进行下载,将其分成若干部分,然后将这些部分发送到您的应用程序引擎应用程序