Apache spark 用于共享V2数据源的存储库

Apache spark 用于共享V2数据源的存储库,apache-spark,datasource,Apache Spark,Datasource,我们正在开发一个Spark V2数据源,它实现了一个S3API,它完全符合AWS SDK,并包括S3选择的下推 我们的目标是与社区共享此数据源 我们在spark源中找到了一个数据源逻辑上可以驻留的位置: /sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/v2/ 然而,我们不确定这是否是正确的方法。我们是否应该建议将此数据源包含在spark中?或者是否有其他存储库,我们可以在其中提出新的数据源以供纳入?我同意这可

我们正在开发一个Spark V2数据源,它实现了一个S3API,它完全符合AWS SDK,并包括S3选择的下推

我们的目标是与社区共享此数据源

我们在spark源中找到了一个数据源逻辑上可以驻留的位置: /sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/v2/


然而,我们不确定这是否是正确的方法。我们是否应该建议将此数据源包含在spark中?或者是否有其他存储库,我们可以在其中提出新的数据源以供纳入?

我同意这可能不是正确的方法。其他数据源(例如Azure事件中心)作为单独的库进行维护。不过有一个想法是与S3团队分享。他们可能会将其作为社区库添加到文档中,帮助项目获得可见性。我同意这可能不是正确的方法。其他数据源(例如Azure事件中心)作为单独的库进行维护。不过有一个想法是与S3团队分享。他们可能会将其作为社区库添加到文档中,帮助项目获得可见性。