Apache spark 没有Databricks的Delta Lake运行时

Apache spark 没有Databricks的Delta Lake运行时,apache-spark,hdfs,databricks,delta-lake,Apache Spark,Hdfs,Databricks,Delta Lake,可以使用Delta Lake而不依赖Databricks运行时吗?(我的意思是,是否可以仅在prem上使用带有hdfs和spark的delta lake?) 如果没有,您能否从技术角度详细说明原因?根据这一点,可以使用Delta Lake而不使用Databricks运行时。 Delta Lake只是一个库,它“知道”如何通过在每个表之外维护一个特殊的事务日志,以事务方式写入和读取表(拼花文件的集合)。 当然,为了使用这些表,需要一个用于外部应用程序(如hive)的特殊连接器。否则,事务性和一致性

可以使用Delta Lake而不依赖Databricks运行时吗?(我的意思是,是否可以仅在prem上使用带有hdfs和spark的delta lake?) 如果没有,您能否从技术角度详细说明原因?

根据这一点,可以使用Delta Lake而不使用Databricks运行时。 Delta Lake只是一个库,它“知道”如何通过在每个表之外维护一个特殊的事务日志,以事务方式写入和读取表(拼花文件的集合)。
当然,为了使用这些表,需要一个用于外部应用程序(如hive)的特殊连接器。否则,事务性和一致性保证将无法实施。

根据文档:,delta lake已经开源,可与Apache Spark一起使用。通过将delta-lake-jar添加到代码中或将库添加到spark安装路径中,可以轻松完成集成。蜂巢集成可以使用:。

是的,delta lake已经由databricks()开源。我正在使用deltalake(0.6.1)以及ApacheSpark(2.4.5)和S3。 许多其他集成也可用于容纳现有技术堆栈,例如集成hive、presto、athena等。 连接器:
集成:&

您可以将delta lake与其他查询引擎(如Presto或Athena)一起使用吗?是的,现在它可以与最新版本一起使用。您可以在这里查看更多详细信息