Apache spark 将数据帧保存到表-Pyspark中的性能_Apache Spark_Pyspark_Hive - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 将数据帧保存到表-Pyspark中的性能_Apache Spark_Pyspark_Hive - Fatal编程技术网

Apache spark 将数据帧保存到表-Pyspark中的性能

apache-spark pyspark hive

Apache spark 将数据帧保存到表-Pyspark中的性能,apache-spark,pyspark,hive,Apache Spark,Pyspark,Hive,我知道有两种方法可以将DF保存到Pyspark中的表中： 1) df.write.saveAsTable("MyDatabase.MyTable") 2) df.createOrReplaceTempView("TempView") spark.sql("CREATE TABLE MyDatabase.MyTable as select * from TempView") 在大型分布式数据集上运行时，使用“CREATE TABLE AS”语句与使用“saveAsTable”语句在性能上

我知道有两种方法可以将DF保存到Pyspark中的表中：

1) df.write.saveAsTable("MyDatabase.MyTable")

2) df.createOrReplaceTempView("TempView")
   spark.sql("CREATE TABLE MyDatabase.MyTable as select * from TempView")

在大型分布式数据集上运行时，使用“CREATE TABLE AS”语句与使用“saveAsTable”语句在性能上是否有任何区别？

createOrReplaceTempView

创建（或替换，如果该视图名称已存在）一个可在Spark SQL中用作表的延迟计算“视图”。除非调用构成视图基础的数据集上的

cache

，否则在调用操作（如

count

）或持久化到

内存之前，它不会具体化。顾名思义，这只是一个临时视图。应用程序/会话结束后，它将丢失
另一方面，saveAsTable
将数据保存到外部存储，如hdfs
或s3
或adls
。这是永久存储，持续时间超过SparkSession或Spark应用程序的范围，可供以后使用
因此，主要区别在于数据集的生存期与性能。显然，在同一个作业中，处理缓存数据的速度更快
 .cache（）
本身也不会具体化数据集。问题是关于.saveAsTable
vsspark.sql（CTAS）
@mazaneicha再次阅读我的答案。它清楚地表明你需要采取“行动”来实现目标。：-）@AravindYarram，谢谢你的评论，但我这并不是在回答我的问题。我想问的是，将数据保存到外部存储的最佳方式是什么。使用saveAsTable或spark.sql（CTAS）甚至spar.sql（INSERT-in…）有什么区别吗？

[pyspark]相关文章推荐

Pyspark HDFS文件作为Spark Mllib的输入 pyspark

PySpark：如何在不随机化的情况下分割数据 pyspark

从pyspark应用程序记录到本地或hdfs文件 pyspark

无法在GCP上的dataproc群集中导入pyspark pyspark google-cloud-platform

Pyspark Spark 2.0或更高版本中的inferschema的替代方案是什么 pyspark

Pyspark 没有用于scheme:cos的文件系统 pyspark

Pyspark 使用spark df将数据写入snowflake时出现性能问题 pyspark snowflake-cloud-data-platform

基于滤波器RDD-PySpark的地图输出 pyspark

PySpark中同一表交叉连接后如何访问字段 pyspark

在PySpark上使用列链多次更改一个列 pyspark

Pyspark 在PythonSpark上运行K时占用大量时间意味着 pyspark

从hdfs目录迭代pyspark中的文件 pyspark

按降序对pyspark数据帧排序 pyspark

Pyspark Spark/Impala中的查询执行方法 pyspark

Pyspark 如何在使用explode函数时重命名Spark dataframe中的列 pyspark

使用Pyspark中的转换减少多动作/过滤器优化 pyspark

Pyspark 我想知道spark redshift库是开源/免费使用还是必须通过Databricks获得许可 pyspark amazon-redshift

在pyspark中不显示毫秒的时间戳 pyspark

Pyspark 按顺序排列两列 pyspark

Pyspark 如何在spark中使用多个分隔符保存文件 pyspark

随机文章推荐

Functional programming 在函数式编程中，什么是函子？ functional-programming ocaml

Functional programming 我应该选择哪种函数式编程语言作为第一种函数式编程语言？ functional-programming

Functional programming 旅行商动态规划伪码 functional-programming

Functional programming 更改OCAML中的相同类型 functional-programming ocaml

Functional programming Scheme-函数式编程的必要性 functional-programming

Functional programming 使用最大公约数乐趣 functional-programming

Functional programming 如何使用Cons运算符？ functional-programming ocaml

Functional programming 如何在Swift中使用自定义对象数组的reduce函数 functional-programming swift

Functional programming 我应该变异传入的属性还是分配其结果？ functional-programming

Functional programming Lisp中的顺序过程 functional-programming scheme lisp common-lisp racket

Functional programming OCaml：为什么比较运算符是类型不可知的，而算术运算符不是？ functional-programming ocaml

Functional programming Heaps算法在Scheme中的实现（置换生成） functional-programming scheme lisp

Functional programming 如何使用功能模式进行TDD functional-programming

Functional programming Rust中模式的定义是什么？模式匹配是什么？我是一个熟悉C语言和C++语言的程序员，但我对那些功能性很强的东西却很少有经验。我正在尝试学习Rust，想知道Rust将模式定义为什么，以及Rust中与匹配表达式匹配的模式是什么。 functional-programming rust

Functional programming Coq：证明n和（sn）的乘积是偶数 functional-programming coq

Functional programming 根据列表中存储的过程定义函数 functional-programming scheme racket

Functional programming SML函子公开类型而不公开实现（实现集） functional-programming sml

Functional programming 为什么这会导致无限循环[SICP]？ functional-programming scheme

Functional programming 需要写一个“；“混合列表”；函数，不使用除'；长度'； functional-programming sml

Functional programming 无标签的最终版本是单子的DI吗？我对无标签的最终理解正确吗？ functional-programming

[apache spark]相关推荐

Tags

Cypress Html Vuejs2 Asp.net Core Push Notification Notifications Install4j Mapping Inno Setup Cucumber Arrays Windows 7 Rx Java Camera Eclipse Ruby On Rails 3.1 Udp Function Opengl Es Processing Aframe Docker Certificate Hazelcast Azure Data Factory Dojo Batch File Ipad Heroku Xamarin.forms Google Chrome Devtools Iis Data Binding Puppet Xamarin.android Wpf F# Ms Word Reporting Services Material Ui Sip Ag Grid Geometry Validation Phpmyadmin Angular Material Internationalization Neo4j Titanium Bootstrap 4 Vim Cmake Webview Logic Google Cloud Platform Blazor Jira Llvm Sharepoint 2013 Windows Mobile Orchardcms Unix Dataframe Elm Algorithm Memory Haskell Delphi Swift2 Email Grep Ethereum Swift3 Documentation Compiler Errors Magento2 Aws Lambda Emacs Discord.js Terminal Laravel 5 Clearcase Mapbox Playframework 2.0 Akka Charts Module Command Line Tinymce Outlook Cocoa Nuget Openerp Html5 Canvas Orm Gwt Ajax Directory Actionscript 3 Compression Image Memory Management Karate Winforms Security Nest Yii Powerbi Web Services Firefox Arduino Python 2.7 .net 4.0 Keycloak Pentaho Notepad++ Spring Security Listview Directx Atom Editor Checkbox Oauth 2.0 Continuous Integration Android Studio Socket.io Apache2 Lisp Pip Libgdx Hybris Class Apache Flink Scripting Xcode Inheritance Jersey Rspec Twilio Text Z3 Phpunit Odata Qt Next.js Selenium Webdriver Entity Framework Random Exchange Server C# 4.0 Rxjs Servlets Oracle10g Usb Enums Database Apache Zookeeper Memory Leaks Odoo Testing Opencl Xna Wcf Omnet++ Concurrency Devexpress Map D3.js Highcharts Colors Rdf Yaml Windows Runtime Iis 7 Netlogo Linux R Vue.js Cron Asp.net Mvc 3 Dialogflow Es Qml Visual Studio Umbraco Erlang Apache Camel Sql X86 Jvm Yocto Symfony Maven Download Amazon S3 Dom C++11 Spring Object Loops Cloud Foundry Menu Vector

Copyright © 2024. All Rights Reserved by - Fatal编程技术网