elasticsearch Logstash读取大量静态xml文件(输入文件插件),elasticsearch,logstash,elasticsearch,Logstash" /> elasticsearch Logstash读取大量静态xml文件(输入文件插件),elasticsearch,logstash,elasticsearch,Logstash" />

elasticsearch Logstash读取大量静态xml文件(输入文件插件)

elasticsearch Logstash读取大量静态xml文件(输入文件插件),elasticsearch,logstash,elasticsearch,Logstash,我在一个目录中有许多xml静态文件,大约有一百万个。我想用logstash读取和解析这些文件,并输出到elasticsearch。 我有下一个输入配置(我尝试了很多方法,这是我的最后一个版本): 我的服务器使用CentOS 6.8和下一个硬件: 80G存储器 英特尔(R)至强(R)CPU E5620@2.40GHz 有16个cpu 在此服务器中安装Logstash(5.1.2)和elasticsearch(5.1.2) 这个配置工作非常慢-大约每秒4个文件 我怎样才能更快地解析呢?几乎没有什么方

我在一个目录中有许多xml静态文件,大约有一百万个。我想用logstash读取和解析这些文件,并输出到elasticsearch。 我有下一个输入配置(我尝试了很多方法,这是我的最后一个版本):

我的服务器使用CentOS 6.8和下一个硬件: 80G存储器 英特尔(R)至强(R)CPU E5620@2.40GHz 有16个cpu

在此服务器中安装Logstash(5.1.2)和elasticsearch(5.1.2)

这个配置工作非常慢-大约每秒4个文件


我怎样才能更快地解析呢?

几乎没有什么方法可以提高对
logstash
的处理,但是很难指出应该做哪一种。也许您可以尝试增加
*pipeline.workers、pipeline.batch.size和pipeline.batch.delay*
的大小,以便调整

快速诊断和解决日志存储性能问题的方法很少。您还可以尝试通过删除所有筛选器来优化输入,然后再次将所有文档发送到/dev/null,以确保处理或输出文档时没有瓶颈

尝试将此行添加到您的
文件中

sincedb_path => "/dev/null"

您可能还想看一看&blog帖子。希望有帮助

我尝试删除xpath xml解析,结果很好——超过100个xml代表秒。解析是一个瓶颈。如何优化xpath解析或增加分配给解析的资源量?我尝试了调优pipeline.workers、pipeline.batch.size和pipeline.batch.delay,但没有得到每秒超过10 xmk的结果。我认为这对我的服务器来说是非常糟糕的结果。
sincedb_path => "/dev/null"