Apache spark spark中的智能数据源是什么?

Apache spark spark中的智能数据源是什么?,apache-spark,Apache Spark,我想知道spark中哪些数据源可以称为“智能”。根据《精通ApacheSpark2.x》一书,如果Spark可以在数据源端处理数据,那么任何数据源都可以称为smart。示例JDBC源代码 我想知道MongoDB、Cassandra和parquet是否也可以被视为智能数据源?我相信智能数据源也可以被视为智能数据源。至少从幻灯片41到42中,您可以看到提到的智能数据源和徽标,包括这些源(注意,mongodb徽标不存在,但我相信它支持相同的东西,请参阅DataRicks演示文稿中的“利用mongodb

我想知道spark中哪些数据源可以称为“智能”。根据《精通ApacheSpark2.x》一书,如果Spark可以在数据源端处理数据,那么任何数据源都可以称为smart。示例JDBC源代码


我想知道MongoDB、Cassandra和parquet是否也可以被视为智能数据源?

我相信智能数据源也可以被视为智能数据源。至少从幻灯片41到42中,您可以看到提到的智能数据源和徽标,包括这些源(注意,mongodb徽标不存在,但我相信它支持相同的东西,请参阅DataRicks演示文稿中的“利用mongodb的力量”一节):

我还找到了一些支持MongoDB是一个智能数据源的信息,因为它在“精通ApacheSpark2.x”一书中被用作示例:

“智能数据源上的谓词下推智能数据源是指那些直接在数据所在的引擎中支持数据处理的数据源,通过防止不必要的数据发送到Apache Spark

一个具有智能数据源的关系SQL数据库。考虑一个具有三列的表:CulnN1、Culn2和Culn3,其中第三列包含时间戳。此外,考虑使用此JDBC数据源的ApACESPARKSQL查询,但只使用投影和选择访问列和行的子集。lowing SQL query就是此类任务的一个示例:

从column3>1418812500的选项卡中选择column2、column3


在智能数据源上运行时,通过让SQL数据库根据时间戳过滤行并删除column1,可以利用数据局部性。让我们看一个在Apache Spark MongoDB连接器中如何实现这一点的实际示例“

您的问题太笼统了。我不认为有任何分类明确地将数据库/数据源分为智能数据源和非智能数据源。