elasticsearch,amazon-ec2,pyspark,Amazon Web Services,Hadoop,elasticsearch,Amazon Ec2,Pyspark" /> elasticsearch,amazon-ec2,pyspark,Amazon Web Services,Hadoop,elasticsearch,Amazon Ec2,Pyspark" />

Amazon web services 弹性搜索:Can';t确定弹性搜索的版本:

Amazon web services 弹性搜索:Can';t确定弹性搜索的版本:,amazon-web-services,hadoop,elasticsearch,amazon-ec2,pyspark,Amazon Web Services,Hadoop,elasticsearch,Amazon Ec2,Pyspark,我正在尝试使用pyspark上的弹性搜索hadoop插件,从HDFS为大约8000万个文档编制弹性搜索索引。如果我尝试在一个快照中插入完整的数据,在索引大约2000万个文档之后,我开始出现上述错误,spark作业失败。 我试着设置了很多不同的选项,比如索引一部分数据,将重试次数参数更改为无限,增加批量大小。但什么都没用。感谢您的帮助 HDFS和ES都在AWS上。我使用的是ES 5.2版。在索引了2000万个文档后,您是否断开了与ES的连接?你在ES日志中找到什么了吗?ES集群中有多少节点?日志中

我正在尝试使用pyspark上的弹性搜索hadoop插件,从HDFS为大约8000万个文档编制弹性搜索索引。如果我尝试在一个快照中插入完整的数据,在索引大约2000万个文档之后,我开始出现上述错误,spark作业失败。 我试着设置了很多不同的选项,比如索引一部分数据,将重试次数参数更改为无限,增加批量大小。但什么都没用。感谢您的帮助


HDFS和ES都在AWS上。我使用的是ES 5.2版。

在索引了2000万个文档后,您是否断开了与ES的连接?你在ES日志中找到什么了吗?ES集群中有多少节点?日志中没有其他节点。我有3个专用主节点和5个数据节点。启动pyspark作业时,我已在es.nodes列表中列出了所有节点。