Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala Elasticsearch的Spark调优-如何提高索引/接收吞吐量_Scala_Hadoop_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Apache Spark - Fatal编程技术网 elasticsearch,apache-spark,Scala,Hadoop,elasticsearch,Apache Spark" /> elasticsearch,apache-spark,Scala,Hadoop,elasticsearch,Apache Spark" />

Scala Elasticsearch的Spark调优-如何提高索引/接收吞吐量

Scala Elasticsearch的Spark调优-如何提高索引/接收吞吐量,scala,hadoop,elasticsearch,apache-spark,Scala,Hadoop,elasticsearch,Apache Spark,想知道Spark执行器、cores和Elasticsearch批量大小之间的关系,以及如何优化Spark作业以获得更好的索引吞吐量 我有拼花地板格式的3.5B数据,我想把它们输入Elasticsearch,我的索引率不会超过20K。有时我得到60K-70K,但它立即下降,我得到的平均指数约为每秒15K-25K 关于我的输入的更多细节: 大约22000个拼花格式的文件 它包含大约32亿条记录(大约3TB大小) 当前运行18个执行器(每个节点3个执行器) 有关当前ES设置的详细信息: 8个节点

想知道Spark执行器、cores和Elasticsearch批量大小之间的关系,以及如何优化Spark作业以获得更好的索引吞吐量

我有拼花地板格式的3.5B数据,我想把它们输入Elasticsearch,我的索引率不会超过20K。有时我得到60K-70K,但它立即下降,我得到的平均指数约为每秒15K-25K

关于我的输入的更多细节:

  • 大约22000个拼花格式的文件
  • 它包含大约32亿条记录(大约3TB大小)
  • 当前运行18个执行器(每个节点3个执行器)
有关当前ES设置的详细信息:

  • 8个节点、1个主节点和7个数据节点
  • 索引70个碎片
  • 索引包含49个字段(未分析任何字段)
  • 无复制
  • “index.store.throttle.type”:“无”
  • “刷新间隔”:“-1”
  • es.batch.size.bytes:100M(我也尝试了500M)

我是Elasticsearch的新手,所以不知道如何调整我的Spark工作以获得更好的性能。

您是否验证过es不是这里的瓶颈?中央处理器?磁盘?ps:我们停止使用刷新间隔-1,并出于某种原因将其恢复为30秒(我认为吞吐量在某个时候开始随着-1而恶化)@IgorBerman是的,我检查了CPU和磁盘,它们都正常。没有尝试过在这个摄取过程中使用刷新间隔30秒,因为他们建议在大浴池摄取过程中将其更改为“-1”。想知道它与摄取/索引性能有什么关系!