Sql server MS SQL server存储过程将引发

Sql server MS SQL server存储过程将引发,sql-server,apache-spark,apache-spark-sql,cloudera-cdh,impala,Sql Server,Apache Spark,Apache Spark Sql,Cloudera Cdh,Impala,我们将MS SQL server作为各种数据库的主要选项,并定期运行数百个存储过程。 现在我们正转向完全大数据栈。我们正在使用Spark进行批处理作业。但是,我们已经投入了巨大的精力来创建这些存储过程。有没有办法在Spark之上重用存储过程?或者有没有一种简单的方法将它们迁移到Spark而不是从头开始编写 或者任何像Cloudera distribution/impala这样的框架都能满足这一需求 不,没有我能说的那么远。您可能能够使用非常类似的逻辑流,但是您需要投入大量的时间和精力来将T-SQ

我们将MS SQL server作为各种数据库的主要选项,并定期运行数百个存储过程。 现在我们正转向完全大数据栈。我们正在使用Spark进行批处理作业。但是,我们已经投入了巨大的精力来创建这些存储过程。有没有办法在Spark之上重用存储过程?或者有没有一种简单的方法将它们迁移到Spark而不是从头开始编写


或者任何像Cloudera distribution/impala这样的框架都能满足这一需求

不,没有我能说的那么远。您可能能够使用非常类似的逻辑流,但是您需要投入大量的时间和精力来将T-SQL转换为Spark。我建议直接使用Scala,不要浪费时间使用Python/PySpark


我对转换的经验法则是尝试在存储过程中使用SQL作为Spark中的SQL来执行任何操作(
sqlContext.SQL(“从y中选择x”)
)但是请注意,Spark数据帧是不可变的,因此任何
更新
删除
操作都必须更改,以输出新的修改后的数据帧。

因为这个原始答案Amazon Redshift(和其他一些云DW)引入了对存储过程的支持。