Python 3.x ? 一个很长的URL列表';It’’很难,我怎么休息一下然后继续呢?

Python 3.x ? 一个很长的URL列表';It’’很难,我怎么休息一下然后继续呢?,python-3.x,Python 3.x,我一直在想这件事。我有几个不同的很长的项目列表,需要抓取、分析并保存到我的计算机上。问题是,这是我唯一的一台电脑,比如说,我会随身携带。所以我并不总是有互联网连接。(或者一系列其他原因可能会中断一段漫长的擦肩而过。)是否有任何sortof协议或库可以帮助我暂停我的程序,并在以后的某个日期重新开始我停止的地方?对不起,如果我含糊不清的话 我唯一的想法是在我的目录中为我刮取的每个页面创建一个文件夹,并在执行刮取和分析之前让程序检查该文件是否存在,使用: for item in List_Items

我一直在想这件事。我有几个不同的很长的项目列表,需要抓取、分析并保存到我的计算机上。问题是,这是我唯一的一台电脑,比如说,我会随身携带。所以我并不总是有互联网连接。(或者一系列其他原因可能会中断一段漫长的擦肩而过。)是否有任何sortof协议或库可以帮助我暂停我的程序,并在以后的某个日期重新开始我停止的地方?对不起,如果我含糊不清的话

我唯一的想法是在我的目录中为我刮取的每个页面创建一个文件夹,并在执行刮取和分析之前让程序检查该文件是否存在,使用:

for item in List_Items
if not os.path.exists(os.path.dirname(mypath + item + '/complete/')):
    scrape(item)
    analyze(item)
    save(item)

    try: os.makedirs(os.path.dirname(mypath + item + '/complete/'))
    except: pass

这也是有益的,因为我可以打开同一程序的多个实例以更快地完成工作。但是把相同的代码放到每个程序中会有点乏味,因为每次都会有一些变化。也许如果我可以遵循某些准则,或者我可以使用一个工具来帮助我做到这一点?我真的不知道该找什么…这就是为什么我一直在想这个问题。

你为什么不把最后一个成功的索引保存到文件中呢?并执行如下程序:

start = read_start_index()
scrape_list(start,...)

或者甚至写一个成功元素的列表,每次都检查其中是否有新项目。

为什么不把上次成功的索引保存到文件中?并执行如下程序:

start = read_start_index()
scrape_list(start,...)
甚至写一个成功元素的列表,每次都检查其中是否有新项目