Python 继续失败的重新索引的简单方法?
我目前正在尝试使用,特别是命令,重新索引一大组数据(大约9600万个文档) 当运行该命令时,我最终从Python 继续失败的重新索引的简单方法?,python,
elasticsearch,Python,
elasticsearch,我目前正在尝试使用,特别是命令,重新索引一大组数据(大约9600万个文档) 当运行该命令时,我最终从bulk命令中得到一个超时错误。我已尝试将批量\u kwargs请求\u超时设置为24小时,但仍然超时。。。28小时后,加载了5700万条记录。 重新运行reindex只会删除现有的索引并重新开始 无论错误发生的原因是什么(我想我遇到了一个磁盘瓶颈问题,我可以解决。没有内存不足错误)有没有简单的方法可以从死掉的地方继续重新索引?如果你说要删除现有的并重新开始,然后只需删除索引并创建一个新的索引并将
bulk
命令中得到一个超时错误。我已尝试将批量\u kwargs请求\u超时设置为24小时,但仍然超时。。。28小时后,加载了5700万条记录。
重新运行reindex只会删除现有的索引并重新开始
无论错误发生的原因是什么(我想我遇到了一个磁盘瓶颈问题,我可以解决。没有内存不足错误)有没有简单的方法可以从死掉的地方继续重新索引?如果你说要删除现有的并重新开始,然后只需删除索引并创建一个新的索引并将其馈送。会更快
或
如果你不能有空的索引,那么一个接一个或使用一些批量删除由某个id
标识的项目,并根据该id
插入更新的项目,它会更快,但最终会在我当前的设置中消亡(或者很可能会,这是一个我无法承担的风险)。我没有选择删除现有数据,因为该命令只会覆盖现有文档(如果不指定查询,将重新索引所有文档)。所以我并不是自己控制删除,API是。你能定义API,elasticsearch API或者…?好的,你当前的设置是什么?你能添加新功能吗?你所说的“新功能”是什么意思?我的设置是一个8核、8GB RAM、1TB HDD debian盒。我现在的问题是驱动器是瓶颈;由于多人使用它,它会导致超时(我认为)。我将把它移到另一个未使用的驱动器(SSD),希望它能重新索引。但是,这种设置可以在以后的类似生产环境中使用,在这些环境中,删除所有内容并重新启动重新索引是不可接受的,因此我需要一种方法来继续重新索引。好的,好的。。。为了给你更好的建议,我应该和你谈谈,获取更多的信息,我不认为这些评论对这有好处,如果你想的话,你可以开始聊天。