Scala Elasticsearch的Spark调优-如何提高索引/接收吞吐量_Scala_Hadoop_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Apache Spark

Scala Elasticsearch的Spark调优-如何提高索引/接收吞吐量

scala hadoop apache-spark

Scala Elasticsearch的Spark调优-如何提高索引/接收吞吐量,scala,hadoop,elasticsearch,apache-spark,Scala,Hadoop,elasticsearch,Apache Spark,想知道Spark执行器、cores和Elasticsearch批量大小之间的关系，以及如何优化Spark作业以获得更好的索引吞吐量我有拼花地板格式的3.5B数据，我想把它们输入Elasticsearch，我的索引率不会超过20K。有时我得到60K-70K，但它立即下降，我得到的平均指数约为每秒15K-25K 关于我的输入的更多细节：大约22000个拼花格式的文件它包含大约32亿条记录（大约3TB大小）当前运行18个执行器（每个节点3个执行器）有关当前ES设置的详细信息： 8个节点

想知道Spark执行器、cores和Elasticsearch批量大小之间的关系，以及如何优化Spark作业以获得更好的索引吞吐量

我有拼花地板格式的3.5B数据，我想把它们输入Elasticsearch，我的索引率不会超过20K。有时我得到60K-70K，但它立即下降，我得到的平均指数约为每秒15K-25K

关于我的输入的更多细节：

大约22000个拼花格式的文件
它包含大约32亿条记录（大约3TB大小）
当前运行18个执行器（每个节点3个执行器）

有关当前ES设置的详细信息：

8个节点、1个主节点和7个数据节点
索引70个碎片
索引包含49个字段（未分析任何字段）
无复制
“index.store.throttle.type”：“无”
“刷新间隔”：“-1”
es.batch.size.bytes:100M（我也尝试了500M）

我是Elasticsearch的新手，所以不知道如何调整我的Spark工作以获得更好的性能。

您是否验证过es不是这里的瓶颈？中央处理器？磁盘？ps：我们停止使用刷新间隔-1，并出于某种原因将其恢复为30秒（我认为吞吐量在某个时候开始随着-1而恶化）@IgorBerman是的，我检查了CPU和磁盘，它们都正常。没有尝试过在这个摄取过程中使用刷新间隔30秒，因为他们建议在大浴池摄取过程中将其更改为“-1”。想知道它与摄取/索引性能有什么关系！