Apache spark 没有Databricks的Delta Lake运行时_Apache Spark_Hdfs_Databricks_Delta Lake

Apache spark 没有Databricks的Delta Lake运行时

apache-spark

Apache spark 没有Databricks的Delta Lake运行时,apache-spark,hdfs,databricks,delta-lake,Apache Spark,Hdfs,Databricks,Delta Lake,可以使用Delta Lake而不依赖Databricks运行时吗？（我的意思是，是否可以仅在prem上使用带有hdfs和spark的delta lake？）如果没有，您能否从技术角度详细说明原因？根据这一点，可以使用Delta Lake而不使用Databricks运行时。 Delta Lake只是一个库，它“知道”如何通过在每个表之外维护一个特殊的事务日志，以事务方式写入和读取表（拼花文件的集合）。当然，为了使用这些表，需要一个用于外部应用程序（如hive）的特殊连接器。否则，事务性和一致性

可以使用Delta Lake而不依赖Databricks运行时吗？（我的意思是，是否可以仅在prem上使用带有hdfs和spark的delta lake？）如果没有，您能否从技术角度详细说明原因？

根据这一点，可以使用Delta Lake而不使用Databricks运行时。 Delta Lake只是一个库，它“知道”如何通过在每个表之外维护一个特殊的事务日志，以事务方式写入和读取表（拼花文件的集合）。

当然，为了使用这些表，需要一个用于外部应用程序（如hive）的特殊连接器。否则，事务性和一致性保证将无法实施。

根据文档：，delta lake已经开源，可与Apache Spark一起使用。通过将delta-lake-jar添加到代码中或将库添加到spark安装路径中，可以轻松完成集成。蜂巢集成可以使用：。

是的，delta lake已经由databricks（）开源。我正在使用deltalake（0.6.1）以及ApacheSpark（2.4.5）和S3。许多其他集成也可用于容纳现有技术堆栈，例如集成hive、presto、athena等。连接器：

集成：&

您可以将delta lake与其他查询引擎（如Presto或Athena）一起使用吗？是的，现在它可以与最新版本一起使用。您可以在这里查看更多详细信息