Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/logging/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Database elasticsearch-规划数据挖掘和度量_Database_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch - Fatal编程技术网 elasticsearch,Database,elasticsearch" /> elasticsearch,Database,elasticsearch" />

Database elasticsearch-规划数据挖掘和度量

Database elasticsearch-规划数据挖掘和度量,database,elasticsearch,Database,elasticsearch,我正在为一个项目规划一个数据库,它存储了数百万关于用户及其机器日志的文档 问题是:如何存储和分割这些数据?基于用户还是基于时间 按用户编制索引我可以快速查询一个用户的百万份文档,并生成许多关于他的基于时间的报告 按时间索引我可以快速查询一天内的所有用户并生成关于他们的报告 - 从用户和时间两个方向挖掘这些数据的最佳方法是什么 我正在读一些关于切分、索引和路由的文章。您每天要存储多少文档?您可能正在进行预优化 一种可能的基于时间的索引策略,带有用户路由: 如果您将每天作为索引,则可以将任何基于日期

我正在为一个项目规划一个数据库,它存储了数百万关于用户及其机器日志的文档

问题是:如何存储和分割这些数据?基于用户还是基于时间

按用户编制索引我可以快速查询一个用户的百万份文档,并生成许多关于他的基于时间的报告

按时间索引我可以快速查询一天内的所有用户并生成关于他们的报告

- 从用户和时间两个方向挖掘这些数据的最佳方法是什么


我正在读一些关于切分、索引和路由的文章。

您每天要存储多少文档?您可能正在进行预优化

一种可能的基于时间的索引策略,带有用户路由: 如果您将每天作为索引,则可以将任何基于日期的搜索限制为仅适用的索引


然后,您可以按userid搜索所有文档,因此任何基于用户的搜索都只会搜索到该用户数据所在的碎片

您每天要存储多少文档?您可能正在进行预优化

一种可能的基于时间的索引策略,带有用户路由: 如果您将每天作为索引,则可以将任何基于日期的搜索限制为仅适用的索引


然后,您可以按userid搜索所有文档,因此任何基于用户的搜索都只会搜索到该用户数据所在的碎片

没有简单的经验法则可以遵循,正如我在一篇文章中强调的那样。它讨论了切分和分区的各种方法以及其他需要记住的事情。本文介绍了基于用户的路由和时间范围划分的优缺点

正如您在评论中指出的,您的摄入率不是很大,因此,例如每天的指数可以很好地工作。但这是否是个好主意在很大程度上取决于你的搜索结果。您通常只搜索最后几天,还是用户通常会搜索其整个历史?如果是这样的话,那么基于时间的分区实际上可能会对您不利,因为您将搜索这么多Lucene索引


链接的文章也引用了Shay关于这个话题的精彩演讲:

没有简单的经验法则可以遵循,正如我在一篇文章中强调的那样。它讨论了切分和分区的各种方法以及其他需要记住的事情。本文介绍了基于用户的路由和时间范围划分的优缺点

正如您在评论中指出的,您的摄入率不是很大,因此,例如每天的指数可以很好地工作。但这是否是个好主意在很大程度上取决于你的搜索结果。您通常只搜索最后几天,还是用户通常会搜索其整个历史?如果是这样的话,那么基于时间的分区实际上可能会对您不利,因为您将搜索这么多Lucene索引


链接文章还引用了Shay关于这个话题的精彩演讲:

每天可能有30万到50万个文档。这是一个很好的策略,我是这样想的。不如我按用户反向索引,按天路由。索引和路由的优点和区别到底是什么?我想你应该想按时间索引,这样你就可以通过关闭/删除索引轻松地删除旧数据。每天可能有300k到500k个文档。这是一个很好的策略,我是这样想的。不如我按用户反向索引,按天路由。索引和路由的优点和区别到底是什么?我想你应该想按时间索引,这让你可以通过关闭/删除索引轻松地删除旧数据。有点相切,但logstash对你来说是现成的吗?建立在ES之上,现在是ES家族的一部分,有点相切,但logstash会为你开箱即用吗?建立在ES之上,现在是ES家族的一部分。从最近几天开始,我读了很多次你的文章。非常感谢你!80%的搜索将在每日索引上运行。只有20%会命中五到六个以上的索引。您需要搜索整个历史记录吗?如果是这样,索引数量不断增加可能会成为一个问题。你可以选择比一天更大的时间范围,例如每月指数。Elasticsearch非常快..:我将创建用于计算和生成每日报告的函数。所以,每次我更改公式时,我都需要运行所有历史记录以生成每日结果。我有2008年的数据,所以每日索引意味着超过2k个索引。从上一天开始,我读了你的文章很多次。非常感谢你!80%的搜索将在每日索引上运行。只有20%会命中五到六个以上的索引。您需要搜索整个历史记录吗?如果是这样,索引数量不断增加可能会成为一个问题。你可以选择比一天更大的时间范围,例如每月指数。Elasticsearch非常快..:我将创建用于计算和生成每日报告的函数。所以,每次我更改公式时,我都需要运行所有历史记录以生成每日结果。我有2008年的数据,所以每日指数意味着 2k索引。