Python大列表和数据库输入

Python大列表和数据库输入,python,database,sqlite,Python,Database,Sqlite,我必须解析HTML文件,它最多可以有50万个链接。 其中40万是我想要的 我是否应该将满足新列表条件的所有链接以及该列表元素的所有链接放入数据库中 或者当我找到满足条件的链接将其添加到数据库(sqlite)(并提交)时。 大量提交不是问题吗 我不想在电源等故障情况下丢失数据。这就是为什么我希望在插入数据库后提交 如何最好地在数据库中放置大量项目?考虑在每1000条记录后提交一次左右考虑在每1000条记录后提交一次左右如果这些链接分布在多个文件中,那么在处理每个文件后提交如何?然后,您还可以记住已

我必须解析HTML文件,它最多可以有50万个链接。 其中40万是我想要的

我是否应该将满足新列表条件的所有链接以及该列表元素的所有链接放入数据库中

或者当我找到满足条件的链接将其添加到数据库(sqlite)(并提交)时。 大量提交不是问题吗

我不想在电源等故障情况下丢失数据。这就是为什么我希望在插入数据库后提交


如何最好地在数据库中放置大量项目?

考虑在每1000条记录后提交一次左右

考虑在每1000条记录后提交一次左右

如果这些链接分布在多个文件中,那么在处理每个文件后提交如何?然后,您还可以记住已处理的文件


如果是单个文件,请在每次提交后记录文件偏移量,以便进行干净的继续。

如果这些多个链接分布在多个文件中,那么在处理每个文件后进行提交如何?然后,您还可以记住已处理的文件


对于单个文件,请在每次提交后记录文件偏移量,以便进行干净的继续。

您可以尝试使用noSQL数据库,如mongo。使用mongo,我添加了500.000个文档,每个文档中有6个字段,添加时间约为15秒(在我的旧笔记本电脑上),对于不难的查询,添加时间约为0.023秒

您可以尝试使用noSQL数据库,比如mongo。使用mongo,我添加了500.000个文档,每个文档中有6个字段,添加时间约为15秒(在我的旧笔记本电脑上),对于不难的查询,添加时间约为0.023秒