elasticsearch,lucene,bigdata,Indexing,elasticsearch,Lucene,Bigdata" /> elasticsearch,lucene,bigdata,Indexing,elasticsearch,Lucene,Bigdata" />

Indexing 如何通过ElasticSearch快速索引大量数据?

Indexing 如何通过ElasticSearch快速索引大量数据?,indexing,elasticsearch,lucene,bigdata,Indexing,elasticsearch,Lucene,Bigdata,我有3TB的数据,大约100亿条记录,每条记录有6列,例如:name、location、ip、count、behavior、type。 我有10台linux服务器,每台服务器有16个内核,90G内存和5TB硬盘空间 我不想很快完成索引,所以我应该如何设计ElasticSearch索引结构,例如:有多少个碎片会更好?而且,我应该使用多种类型,即同一索引有多种类型。多种类型是否有助于索引性能,请参见。以下是一些好的阅读:和(为了强调副本服务请求!)。至于如何将数据组织到索引和映射中,实际上取决于您对

我有3TB的数据,大约100亿条记录,每条记录有6列,例如:
name、location、ip、count、behavior、type。
我有10台linux服务器,每台服务器有16个内核,90G内存和5TB硬盘空间


我不想很快完成索引,所以我应该如何设计ElasticSearch索引结构,例如:有多少个碎片会更好?而且,我应该使用多种类型,即同一索引有多种类型。多种类型是否有助于索引性能,请参见。

以下是一些好的阅读:和(为了强调副本服务请求!)。至于如何将数据组织到索引和映射中,实际上取决于您对数据的计划以及数据是什么。为了获得良好的实践,您需要对集群和索引配置性能进行基准测试,这方面没有神奇的方法。我邀请您阅读这篇关于负载测试elasticsearch的文章,以及前面评论中推荐的链接。然而,这个问题仍然相当广泛!大家好,我发现如果我在同一个索引下使用多个类型,那么索引速度将比只使用一个类型更快。例如,我创建了一个名为testIndex的索引,如果在/testIndex/type1下索引3TB数据需要20小时,而在/testIndex/type1、/testIndex/type2和/testIndex/type3下分别索引3TB数据,每种类型只需要1TB数据,那么索引时间只需要7小时。你们对此有何看法:)每个索引1TB的数据量相当大。确保你特别注意你的索引中有多少碎片。索引数据很容易,但当您开始搜索数据时,必然会出现问题,内存肯定是个问题。因此,如果您没有足够的节点来分散负载,您将陷入麻烦,为了能够在多个节点上水平扩展,您的索引中需要有足够的碎片。@Jack找到解决方案了吗?以下是一些好的阅读:和(强调副本服务于请求!)。至于如何将数据组织到索引和映射中,实际上取决于您对数据的计划以及数据是什么。为了获得良好的实践,您需要对集群和索引配置性能进行基准测试,这方面没有神奇的方法。我邀请您阅读这篇关于负载测试elasticsearch的文章,以及前面评论中推荐的链接。然而,这个问题仍然相当广泛!大家好,我发现如果我在同一个索引下使用多个类型,那么索引速度将比只使用一个类型更快。例如,我创建了一个名为testIndex的索引,如果在/testIndex/type1下索引3TB数据需要20小时,而在/testIndex/type1、/testIndex/type2和/testIndex/type3下分别索引3TB数据,每种类型只需要1TB数据,那么索引时间只需要7小时。你们对此有何看法:)每个索引1TB的数据量相当大。确保你特别注意你的索引中有多少碎片。索引数据很容易,但当您开始搜索数据时,必然会出现问题,内存肯定是个问题。因此,如果您没有足够的节点来分散负载,您将遇到麻烦,为了能够在多个节点上水平扩展,您的索引中需要有足够的碎片。@Jack找到解决方案了吗?