Apache spark 在DataRicks中将云数据源注册为全局表而不复制

Apache spark 在DataRicks中将云数据源注册为全局表而不复制,apache-spark,azure-storage,databricks,azure-databricks,delta-lake,Apache Spark,Azure Storage,Databricks,Azure Databricks,Delta Lake,鉴于我在Azure存储中有一个增量表: wasbs://mycontainer@myawesomestorage.blob.core.windows.net/mydata 这可以从我的Databricks环境中获得。我现在希望通过全局表获得这些数据,自动加载到所有集群,并在“数据”部分可见 我可以通过复制轻松做到这一点: spark.read\ .加载(“wasbs://mycontainer@myawesomestorage.blob.core.windows.net/mydata)\ .w

鉴于我在Azure存储中有一个增量表:

wasbs://mycontainer@myawesomestorage.blob.core.windows.net/mydata
这可以从我的Databricks环境中获得。我现在希望通过全局表获得这些数据,自动加载到所有集群,并在“数据”部分可见

我可以通过复制轻松做到这一点:

spark.read\
.加载(“wasbs://mycontainer@myawesomestorage.blob.core.windows.net/mydata)\
.write.saveAsTable(“我的新表”)
但这是昂贵的,我需要偶尔运行它(不过,结构化流媒体将有所帮助)但是否可以直接将源注册为全局表,而不必复制所有文件?

您可以在databricks笔记本单元中使用语句:

%sql
如果不存在,则创建表默认值。我的新表
使用DELTA
位置“wasbs://mycontainer@myawesomestorage.blob.core.windows.net/mydata“

表my_new_表应该出现在databricks data选项卡中的默认数据库中。

这就是我要找的。谢谢:-)