elasticsearch 经济高效且及时的系统对15GB MySQL数据库的每周快照执行业务逻辑查询(批处理)?,elasticsearch,hive,bigdata,elasticsearch,Hive,Bigdata" /> elasticsearch 经济高效且及时的系统对15GB MySQL数据库的每周快照执行业务逻辑查询(批处理)?,elasticsearch,hive,bigdata,elasticsearch,Hive,Bigdata" />

elasticsearch 经济高效且及时的系统对15GB MySQL数据库的每周快照执行业务逻辑查询(批处理)?

elasticsearch 经济高效且及时的系统对15GB MySQL数据库的每周快照执行业务逻辑查询(批处理)?,elasticsearch,hive,bigdata,elasticsearch,Hive,Bigdata,我们希望对一系列MySQL快照执行批处理操作,但不确定purseu的体系结构。我们有超过100个15GB数据库的快照 我们目前正在讨论使用什么样的体系结构,它不会让人尴尬,速度慢,但在时间和金钱上都不会带来巨大的开销。以下是我们所考虑的: 在执行查询时,将每个db加载到一个开放堆栈VM中,然后将发现的数据保存到Redis实例的某个地方,我们可以使用python转储报告。这会很慢不 将所有内容加载到弹性搜索中并通过弹性搜索执行查询这将不允许我们所需的健壮性/查询逻辑 我们已经看过Hive或pres

我们希望对一系列MySQL快照执行批处理操作,但不确定purseu的体系结构。我们有超过100个15GB数据库的快照

我们目前正在讨论使用什么样的体系结构,它不会让人尴尬,速度慢,但在时间和金钱上都不会带来巨大的开销。以下是我们所考虑的:

在执行查询时,将每个db加载到一个开放堆栈VM中,然后将发现的数据保存到Redis实例的某个地方,我们可以使用python转储报告。这会很慢不

将所有内容加载到弹性搜索中并通过弹性搜索执行查询这将不允许我们所需的健壮性/查询逻辑

我们已经看过Hive或prestodb,但这需要大量的硬件

在小范围内,我们的一些表格如下所示:

    client:
        client_id (primary key)
        name
        address
        city

    device:
        device_id (primary key)
        name
        location

    service:
        service_id (primary key)
        name
        price
        client_id
        device_id

    (there are no relationships between tables)
下面是我们想要做的一个例子:


查看快照4快照中上个月价格上涨的所有服务。获取增加的每个服务的客户端位置和设备名称。将其转储到csv或其他可视化软件(如kibana)中。

不确定当服务明显有两个外键指向其他两个表时,表之间没有关系意味着什么。还有,为什么您说ES不允许您想要的查询的健壮性?将这些表索引到单个ES映射类型中,然后运行所需的查询非常容易。15GB是一个相当小的数据库,为什么要有100个快照?最有可能的情况是,常规SQL应该可以,使用只读副本以减少生产服务器上的负载。听起来你需要有人帮你。@Val他们没有外键。它们只是可以与另一个表主键关联的整数字段。数据库中没有实际的链接。如果我错了,请纠正我,我们可以通过elasticsearch进行示例查询吗?我的印象是没有@BjörnNilsson快照是这样的,我们可以为我们的会计师对数据进行统计分析,等等。测量增长、损耗等。我们考虑过做只读副本,第一次通过sqlalchemy读取,第二次通过python将数据存储在内存中,等等。我们不想把自己画进一个角落,2年后,当我们有数千个快照时,我们有一个需要几天才能完成的查询。我们是否能够通过elasticsearch=>执行示例查询?没有什么是不可能的!通过精心制作一个好的数据映射,我非常肯定,确实可以做一些事情您可以保留所需的所有快照,ES将很高兴地接收它们。