Scala 为了获得更好的性能,我应该在spark sql中使用哪一个,从拼花文件读取数据还是从数据库读取数据?

Scala 为了获得更好的性能,我应该在spark sql中使用哪一个,从拼花文件读取数据还是从数据库读取数据?,scala,apache-spark-sql,Scala,Apache Spark Sql,现在我是spark sql(scala lang)的初学者。我想运行查询。使用拼花锉刀真的能提高性能吗?拼花文件或从数据库(Oracle)读取数据是否需要放置在HDFS中以执行spark查询?哪种方法是正确的?我可以肯定地说,与通过JDBC连接器读取Oracle等RDBMS相比,从HDFS读取拼花地板文件更具可扩展性。原因是数据局部性——如果您在相同的主机上运行Spark executors,HDFS数据节点所在的主机可以有效地将数据读取到内存中,而无需网络开销。 看见 及 更多细节 此外,拼花

现在我是spark sql(scala lang)的初学者。我想运行查询。使用拼花锉刀真的能提高性能吗?拼花文件或从数据库(Oracle)读取数据是否需要放置在HDFS中以执行spark查询?哪种方法是正确的?

我可以肯定地说,与通过JDBC连接器读取Oracle等RDBMS相比,从HDFS读取拼花地板文件更具可扩展性。原因是数据局部性——如果您在相同的主机上运行Spark executors,HDFS数据节点所在的主机可以有效地将数据读取到内存中,而无需网络开销。 看见 及 更多细节


此外,拼花格式是柱状的,与传统的RDBMS相比,它具有OLAP存储的优势(尤其是当数据稀疏时)。简短比较:

我可以肯定地说,与通过JDBC连接器读取Oracle等RDBMS相比,从HDFS读取拼花地板文件更具可扩展性。原因是数据局部性——如果您在相同的主机上运行Spark executors,HDFS数据节点所在的主机可以有效地将数据读取到内存中,而无需网络开销。 看见 及 更多细节


此外,拼花格式是柱状的,与传统的RDBMS相比,它具有OLAP存储的优势(尤其是当数据稀疏时)。简短比较:

拼花地板文件的读取速度远远快于数据库,比如快3-4个数量级。拼花地板文件的读取速度远远快于数据库,比如快3-4个数量级。