Sql server MS SQL server存储过程将引发_Sql Server_Apache Spark_Apache Spark Sql_Cloudera Cdh_Impala

Sql server MS SQL server存储过程将引发

sql-server apache-spark

Sql server MS SQL server存储过程将引发,sql-server,apache-spark,apache-spark-sql,cloudera-cdh,impala,Sql Server,Apache Spark,Apache Spark Sql,Cloudera Cdh,Impala,我们将MS SQL server作为各种数据库的主要选项，并定期运行数百个存储过程。现在我们正转向完全大数据栈。我们正在使用Spark进行批处理作业。但是，我们已经投入了巨大的精力来创建这些存储过程。有没有办法在Spark之上重用存储过程？或者有没有一种简单的方法将它们迁移到Spark而不是从头开始编写或者任何像Cloudera distribution/impala这样的框架都能满足这一需求不，没有我能说的那么远。您可能能够使用非常类似的逻辑流，但是您需要投入大量的时间和精力来将T-SQ

我们将MS SQL server作为各种数据库的主要选项，并定期运行数百个存储过程。现在我们正转向完全大数据栈。我们正在使用Spark进行批处理作业。但是，我们已经投入了巨大的精力来创建这些存储过程。有没有办法在Spark之上重用存储过程？或者有没有一种简单的方法将它们迁移到Spark而不是从头开始编写

或者任何像Cloudera distribution/impala这样的框架都能满足这一需求

不，没有我能说的那么远。您可能能够使用非常类似的逻辑流，但是您需要投入大量的时间和精力来将T-SQL转换为Spark。我建议直接使用Scala，不要浪费时间使用Python/PySpark

我对转换的经验法则是尝试在存储过程中使用SQL作为Spark中的SQL来执行任何操作（

sqlContext.SQL（“从y中选择x”）

）但是请注意，Spark数据帧是不可变的，因此任何

更新

或

删除

操作都必须更改，以输出新的修改后的数据帧。

因为这个原始答案Amazon Redshift（和其他一些云DW）引入了对存储过程的支持。