Apache spark Spark适合在作业中处理来自sql db的数据吗？如何避免在作业中处理相同的数据？_Apache Spark

Apache spark Spark适合在作业中处理来自sql db的数据吗？如何避免在作业中处理相同的数据？

apache-spark

Apache spark Spark适合在作业中处理来自sql db的数据吗？如何避免在作业中处理相同的数据？,apache-spark,Apache Spark,我有一个问题，我想知道spark是否是解决这个问题的好工具：有一个sql数据库。我想处理来自此类表的数据：订单表： |id |产品|日期| 我想创建处理作业，它可以扫描所有记录并保存到其他数据库/文件。最后，我希望在数据库/文件中有几个功能/表，例如，较旧的产品订单，给定月份的订单数量因此，目标数据库/文件将包含ordersForGivenMounths表，其值为：9月：150个相同id的订单，10月：230。。。等等数据库中的表将被展开。我只举了两个例子可以在Spark完成吗？对于

我有一个问题，我想知道spark是否是解决这个问题的好工具：

有一个sql数据库。我想处理来自此类表的数据：

订单表：

|id |产品|日期|

我想创建处理作业，它可以扫描所有记录并保存到其他数据库/文件。最后，我希望在数据库/文件中有几个功能/表，例如，较旧的产品订单，给定月份的订单数量

因此，目标数据库/文件将包含ordersForGivenMounths表，其值为：9月：150个相同id的订单，10月：230。。。等等

数据库中的表将被展开。我只举了两个例子

可以在Spark完成吗？对于这类任务，它是一个好工具吗？我是否可以在Spark中创建每给定时间段处理sql数据库的作业？新记录将不断添加到源sql数据库中。是否可以对Spark进行配置，使其不处理先前已处理并已提前推入目标数据库/文件的数据？

我一直在寻找教程/文档，但大多数都是介绍，没有具体的解决方案。

我认为您可以在自定义接收器上使用spark streaming，并且可以在接收器上添加一些逻辑。[receiver]

目标是Apache Hive等人，还是其他数据库，如mySQL、ORACLE？有点模糊。这是微软的Sql server从同一个Sql server数据库转换到另一个数据库还是在同一个数据库中？这还没有计划。我想找到最好的解决办法。它可以是不同的目标数据库，例如Cassandrat认为您需要编辑问题以使其更加具体