Apache spark Spark适合在作业中处理来自sql db的数据吗?如何避免在作业中处理相同的数据?

Apache spark Spark适合在作业中处理来自sql db的数据吗?如何避免在作业中处理相同的数据?,apache-spark,Apache Spark,我有一个问题,我想知道spark是否是解决这个问题的好工具: 有一个sql数据库。我想处理来自此类表的数据: 订单表: |id |产品|日期| 我想创建处理作业,它可以扫描所有记录并保存到其他数据库/文件。 最后,我希望在数据库/文件中有几个功能/表,例如,较旧的产品订单,给定月份的订单数量 因此,目标数据库/文件将包含ordersForGivenMounths表,其值为:9月:150个相同id的订单,10月:230。。。等等 数据库中的表将被展开。我只举了两个例子 可以在Spark完成吗?对于

我有一个问题,我想知道spark是否是解决这个问题的好工具:

有一个sql数据库。我想处理来自此类表的数据:

订单表:

|id |产品|日期|

我想创建处理作业,它可以扫描所有记录并保存到其他数据库/文件。 最后,我希望在数据库/文件中有几个功能/表,例如,较旧的产品订单,给定月份的订单数量

因此,目标数据库/文件将包含ordersForGivenMounths表,其值为:9月:150个相同id的订单,10月:230。。。等等

数据库中的表将被展开。我只举了两个例子

可以在Spark完成吗?对于这类任务,它是一个好工具吗? 我是否可以在Spark中创建每给定时间段处理sql数据库的作业? 新记录将不断添加到源sql数据库中。是否可以对Spark进行配置,使其不处理先前已处理并已提前推入目标数据库/文件的数据?
我一直在寻找教程/文档,但大多数都是介绍,没有具体的解决方案。

我认为您可以在自定义接收器上使用spark streaming,并且可以在接收器上添加一些逻辑。[receiver]

目标是Apache Hive等人,还是其他数据库,如mySQL、ORACLE?有点模糊。这是微软的Sql server从同一个Sql server数据库转换到另一个数据库还是在同一个数据库中?这还没有计划。我想找到最好的解决办法。它可以是不同的目标数据库,例如Cassandrat认为您需要编辑问题以使其更加具体