Apache spark 用于共享V2数据源的存储库_Apache Spark_Datasource

Apache spark 用于共享V2数据源的存储库

apache-spark

Apache spark 用于共享V2数据源的存储库,apache-spark,datasource,Apache Spark,Datasource,我们正在开发一个Spark V2数据源，它实现了一个S3API，它完全符合AWS SDK，并包括S3选择的下推我们的目标是与社区共享此数据源我们在spark源中找到了一个数据源逻辑上可以驻留的位置： /sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/v2/ 然而，我们不确定这是否是正确的方法。我们是否应该建议将此数据源包含在spark中？或者是否有其他存储库，我们可以在其中提出新的数据源以供纳入？我同意这可

我们正在开发一个Spark V2数据源，它实现了一个S3API，它完全符合AWS SDK，并包括S3选择的下推

我们的目标是与社区共享此数据源

我们在spark源中找到了一个数据源逻辑上可以驻留的位置： /sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/v2/

然而，我们不确定这是否是正确的方法。我们是否应该建议将此数据源包含在spark中？或者是否有其他存储库，我们可以在其中提出新的数据源以供纳入？

我同意这可能不是正确的方法。其他数据源（例如Azure事件中心）作为单独的库进行维护。不过有一个想法是与S3团队分享。他们可能会将其作为社区库添加到文档中，帮助项目获得可见性。我同意这可能不是正确的方法。其他数据源（例如Azure事件中心）作为单独的库进行维护。不过有一个想法是与S3团队分享。他们可能会将其作为社区库添加到文档中，帮助项目获得可见性。