用于Azure Databricks作业的DevOps
我正在尝试在Azure Databricks上实现DevOps 我已经完成了针对databricks笔记本和dbfs文件的devops实现 我确实有许多databricks作业在我的集群上按计划运行。 其中一些作业指向笔记本文件,很少指向dbfs位置中的jar文件 是否有任何方法可以在azure databricks作业上实现devops流程,以便DEV中任何作业中的任何更改都将调用构建管道并在PROD databricks实例中部署相同的流程 首先,我想知道是否有可能在azure databricks作业上实现devops用于Azure Databricks作业的DevOps,azure,azure-devops,azure-databricks,Azure,Azure Devops,Azure Databricks,我正在尝试在Azure Databricks上实现DevOps 我已经完成了针对databricks笔记本和dbfs文件的devops实现 我确实有许多databricks作业在我的集群上按计划运行。 其中一些作业指向笔记本文件,很少指向dbfs位置中的jar文件 是否有任何方法可以在azure databricks作业上实现devops流程,以便DEV中任何作业中的任何更改都将调用构建管道并在PROD databricks实例中部署相同的流程 首先,我想知道是否有可能在azure databr
任何线索感谢 为了有效地做到这一点,我建议使用它-在这种情况下,可以将存储在Git或类似的东西中,然后很容易与CI/CD系统集成,例如Azure DevOps、GitHub Actions等 环境之间的差异可以被编码为具有不同文件的变量以及用于不同环境的变量等,因此您可以在环境之间重复使用主代码,如下所示:
provider "databricks" {
host = var.db_host
token = var.db_token
}
data "databricks_spark_version" "latest" {}
data "databricks_node_type" "smallest" {
local_disk = true
}
resource "databricks_job" "this" {
name = "Job"
new_cluster {
num_workers = 1
spark_version = data.databricks_spark_version.latest.id
node_type_id = data.databricks_node_type.smallest.id
}
notebook_task {
notebook_path = "path_to_notebook"
}
email_notifications {}
}
从理论上讲,您可以执行一些定期任务,从原始环境中提取作业定义,检查作业定义是否已更改,并将更改应用到另一个环境。您甚至可以通过跟踪作业定义的更改,并将其用作触发器
但所有这些都只是黑客行为——最好使用Terraform。您的作业是以笔记本、jar或python文件的形式实现的?它们大多数使用笔记本文件,但很少使用jar文件