Pyspark 从Databricks笔记本连接到Azure SQL数据库_Pyspark_Azure Sql Database_Databricks

Pyspark 从Databricks笔记本连接到Azure SQL数据库

pyspark azure-sql-database

Pyspark 从Databricks笔记本连接到Azure SQL数据库,pyspark,azure-sql-database,databricks,Pyspark,Azure Sql Database,Databricks,我想使用Databricks笔记本将数据从Azure Blob存储加载到Azure SQL数据库。有人能帮我做这件事吗？我是新手，所以我不能发表评论，但为什么要用Databricks来做这件事呢？使用Azure Data Factory将更容易、更便宜如果您真的需要使用Databricks，您需要挂载Blob存储帐户，或者直接从Databricks笔记本或JAR访问它，如文档（）中所述然后，您可以将文件以任何格式读入数据帧，并使用SQL JDBC连接器创建一个连接，将数据写入SQL（）。在

我想使用Databricks笔记本将数据从Azure Blob存储加载到Azure SQL数据库。有人能帮我做这件事吗？

我是新手，所以我不能发表评论，但为什么要用Databricks来做这件事呢？使用Azure Data Factory将更容易、更便宜

如果您真的需要使用Databricks，您需要挂载Blob存储帐户，或者直接从Databricks笔记本或JAR访问它，如文档（）中所述

然后，您可以将文件以任何格式读入数据帧，并使用SQL JDBC连接器创建一个连接，将数据写入SQL（）。

在ADF上使用DataRicks的一个可能原因（待确认）是ADF希望SQL DB中的特定表用模式定义。我从databricks中的Api导入数据，共有200列。我不想指定架构。我希望在DataRicks中，我可以在SQL中动态创建表，并从dataframe推断模式。它将被用作Power BI（类似于@Rodney）的保留表，这是有道理的，但我很好奇，您是否可以使用动态模式使数据类型工作。类型推断并不总是像您希望的那样工作，尤其是当源数据有很多空值或可能的坏数据时。如果你使用SQL的唯一理由是一个临时表，你可以考虑的另一种方法是在Databricks中使用一个蜂巢或delta表来存储数据，然后直接从电源BI中查询它。是的，这是一个临时解决方案——我只需要从我的数据文件中快速地从数据库中得到一些东西。它确实有效，但最终我将使用ADF，因为它速度更快，并提供日志记录等，更不用说更便宜了。只是很高兴知道有火花连接器的边缘案件。。。