使用Spark对关系型非分片数据存储（例如MySQL）进行描述性分析有意义吗？_Mysql_Apache Spark_Bigdata

使用Spark对关系型非分片数据存储（例如MySQL）进行描述性分析有意义吗？

mysql apache-spark

使用Spark对关系型非分片数据存储（例如MySQL）进行描述性分析有意义吗？,mysql,apache-spark,bigdata,Mysql,Apache Spark,Bigdata,正如标题所说，我们的数据生活在一个托管的MySQL数据库中，没有切分或集群 Spark（内存内并行处理、跨多个数据集连接的能力）的体系结构优势是否适用于这种情况，还是MySQL从IO的角度来看成为了瓶颈，使Spark的好处无效？听起来普通的旧SQL在您的情况下会更好地工作-除非您计划转移到更多样化的后端和/或迁移出MySQL我有意将我的问题简短而集中，但是的，将来我们将不只使用其他后端（例如对象存储、NoSQL）同时应用更先进的分析方法（流式分析、预测分析、因子分解）。所以Spark被认为是未来

正如标题所说，我们的数据生活在一个托管的MySQL数据库中，没有切分或集群

Spark（内存内并行处理、跨多个数据集连接的能力）的体系结构优势是否适用于这种情况，还是MySQL从IO的角度来看成为了瓶颈，使Spark的好处无效？

听起来普通的旧SQL在您的情况下会更好地工作-除非您计划转移到更多样化的后端和/或迁移出MySQL

我有意将我的问题简短而集中，但是的，将来我们将不只使用其他后端（例如对象存储、NoSQL）同时应用更先进的分析方法（流式分析、预测分析、因子分解）。所以Spark被认为是未来的一项投资，我的问题是确定我们必须依靠单一平台短期支付的罚金有多大。当然，当规模成为一个问题时，人们总是可以构建多个堆栈或迁移到不同的堆栈。但这还有其他复杂的影响（资金、敏捷性等）。开销取决于您将推动多少数据来激发自己，而不是您将在对MySQL的查询中投入多少。你在查询中加入的逻辑越多，你对spark的使用就越少。再说一次，除非你在不久的将来有具体的计划，否则听起来像是白费力气，但根据我的理解，MySQL中的分析查询和连接功能在某种程度上是有限的，因此大多数处理逻辑（聚合）都将与MySQL相结合，MySQL只提供数据。类似于将csv文件从S3加载到Spark中，S3也不执行任何处理逻辑。因此，我的理解是，I/O将由MySQL决定/影响，但一旦数据加载到Spark集群的内存中，查询性能将完全独立于MySQL。“o我的理解是，I/o将由MySQL决定/影响，但一旦数据加载到Spark集群的内存中，查询性能将完全独立于MySQL。“-完全正确