Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Spark对关系型非分片数据存储(例如MySQL)进行描述性分析有意义吗?_Mysql_Apache Spark_Bigdata - Fatal编程技术网

使用Spark对关系型非分片数据存储(例如MySQL)进行描述性分析有意义吗?

使用Spark对关系型非分片数据存储(例如MySQL)进行描述性分析有意义吗?,mysql,apache-spark,bigdata,Mysql,Apache Spark,Bigdata,正如标题所说,我们的数据生活在一个托管的MySQL数据库中,没有切分或集群 Spark(内存内并行处理、跨多个数据集连接的能力)的体系结构优势是否适用于这种情况,还是MySQL从IO的角度来看成为了瓶颈,使Spark的好处无效?听起来普通的旧SQL在您的情况下会更好地工作-除非您计划转移到更多样化的后端和/或迁移出MySQL我有意将我的问题简短而集中,但是的,将来我们将不只使用其他后端(例如对象存储、NoSQL)同时应用更先进的分析方法(流式分析、预测分析、因子分解)。所以Spark被认为是未来

正如标题所说,我们的数据生活在一个托管的MySQL数据库中,没有切分或集群


Spark(内存内并行处理、跨多个数据集连接的能力)的体系结构优势是否适用于这种情况,还是MySQL从IO的角度来看成为了瓶颈,使Spark的好处无效?

听起来普通的旧SQL在您的情况下会更好地工作-除非您计划转移到更多样化的后端和/或迁移出MySQL

我有意将我的问题简短而集中,但是的,将来我们将不只使用其他后端(例如对象存储、NoSQL)同时应用更先进的分析方法(流式分析、预测分析、因子分解)。所以Spark被认为是未来的一项投资,我的问题是确定我们必须依靠单一平台短期支付的罚金有多大。当然,当规模成为一个问题时,人们总是可以构建多个堆栈或迁移到不同的堆栈。但这还有其他复杂的影响(资金、敏捷性等)。开销取决于您将推动多少数据来激发自己,而不是您将在对MySQL的查询中投入多少。你在查询中加入的逻辑越多,你对spark的使用就越少。再说一次,除非你在不久的将来有具体的计划,否则听起来像是白费力气,但根据我的理解,MySQL中的分析查询和连接功能在某种程度上是有限的,因此大多数处理逻辑(聚合)都将与MySQL相结合,MySQL只提供数据。类似于将csv文件从S3加载到Spark中,S3也不执行任何处理逻辑。因此,我的理解是,I/O将由MySQL决定/影响,但一旦数据加载到Spark集群的内存中,查询性能将完全独立于MySQL。“o我的理解是,I/o将由MySQL决定/影响,但一旦数据加载到Spark集群的内存中,查询性能将完全独立于MySQL。“-完全正确