Apache spark 如何在Spark中高效地连接具有不同列集的数据帧？_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在Spark中高效地连接具有不同列集的数据帧？_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Apache spark 如何在Spark中高效地连接具有不同列集的数据帧？

apache-spark pyspark

Apache spark 如何在Spark中高效地连接具有不同列集的数据帧？,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,我有两个具有不同但重叠列集的表。我想以pandas的方式连接它们，但spark中的效率非常低 X: A B 0 1 3 1 2 4 Y: A C 0 5 7 1 6 8 pd.concat(X, Y): A B C 0 1 3 NaN 1 2 4 NaN 0 5 NaN 7 1 6 NaN 8 我试着用Spark SQL来做这件事 select A, B, null as C from X union all selec

我有两个具有不同但重叠列集的表。我想以pandas的方式连接它们，但spark中的效率非常低

X:
   A  B
0  1  3
1  2  4

Y:
   A  C
0  5  7
1  6  8

pd.concat(X, Y):
   A   B   C
0  1   3 NaN
1  2   4 NaN
0  5 NaN   7
1  6 NaN   8

我试着用Spark SQL来做这件事

select A, B, null as C from X union all select A, null as B, C from Y

。。。而且速度非常慢。我将此查询应用于两个大小为（79行，17330列）和（92行，16列）的表。在Spark 1.62上运行129s，在Spark 2.01上运行319s，在pandas上运行1.2s。为什么这么慢？这是某种臭虫吗使用spark可以更快地完成吗？
编辑：我试着用编程的方式来做这件事，就像这里一样：-它甚至更慢

问题似乎是添加空列也许可以以不同的方式解决，或者这部分可以更快一些？
a）如何读取数据？b）您是如何配置集群的？这只是一个测试设置，所以我通过./bin/pyspark在笔记本电脑上运行独立的spark实例。我用python对数据进行预处理，然后调用
X=sc.parallelize（行列表）.toDF（列名）
，将其放入数据帧中。重点的可能重复是高效。你链接中的解决方案和我的一样慢。

[pyspark]相关文章推荐

Pyspark Spark中两种不同方法的比较：还原和排序 pyspark

应用pyspark ALS时出现堆栈溢出错误'；s"；推荐俄罗斯产品“；（尽管可用的群集内存大于300GB） pyspark

是否将PySpark dataframe转换为线性回归所需的训练数据格式？ pyspark

PySpark：错误“；无法pickle标准输入“；关于函数映射 pyspark

Pyspark 如何将url链接添加到jupyter笔记本上graphviz中的节点 pyspark jupyter-notebook graphviz

Pyspark 使用SQL从两个数据帧提取数据时出错 pyspark

Pyspark 无法转换DynamicFrame.toDF（）获取异常 pyspark

Pyspark Spark dataframe date_在不工作时添加带有大小写的函数 pyspark

pyspark是否将列的最大值保存到参数中？ pyspark

基于PySpark中另一个数据帧的列值更新列中的值 pyspark

将气流变量导入PySpark pyspark airflow

Pyspark 测绘及；df中的键还原 pyspark

jupyter中的pyspark配置是否适用于所有笔记本电脑组合或每个笔记本电脑 pyspark

Pyspark 如何在pysark中将4/23/19这样的字符串解析为时间戳 pyspark

Pyspark 派斯帕克；检查列是否包含列表元素之一的UDF pyspark

Pyspark从列级别内的时间戳获取时间差 pyspark

pyspark：在同一列（使用数组）上使用多个UDF函数时出现意外行为 pyspark

如何划分数据帧行'；将每个值按行'；s pyspark中的总和（数据规范化）？ pyspark

如何在pyspark中创建行并在给定的df中递增 pyspark

随机文章推荐

应用程序域的Openid openid dns for-loop

Openid 使用DotNetOpenAuth时Azure dev结构因SocketException崩溃 openid azure

Openid 在dotnetopenauth中使用AXFetchAsSregTransform行为时获取响应 openid

OpenId标识符可以包含unicode字符吗？ openid

openID是否足够安全，可以在商业网站中实现 openid

谷歌OpenId-如何提供电子邮件？ openid

OpenID连接授权代码字符串的格式是什么？ openid azure-ad-b2c

当请求抛出401个未授权错误时，如何使用来自JMeter的OpenID对其进行身份验证 openid

[apache spark]相关推荐

Tags

Testng Emacs Npm Spring Boot Oracle10g Azure Active Directory Ecmascript 6 Deep Learning Charts Notepad++ Jdbc Gradle Checkbox Ipython Graphics C# 4.0 Jar Jakarta Ee Pine Script Ethereum Random Nestjs Csv Language Agnostic Liferay Sencha Touch 2 Oracle Node.js Llvm Facebook Graph Api Serial Port Wolfram Mathematica Sql Server Robotframework Prolog Google Chrome Racket Animation Ipad Rest Highcharts Uiview Requirejs Memory Management Ios6 Vb.net Events Pointers Module C Prometheus Apache2 Methods Encryption Flash Binding Terraform Mono Ruby On Rails 4 Video Visual Studio 2015 File Upload Browser Google Plus Fiware Jupyter Notebook Cocoa Touch Windows Phone Keras Service Github Optimization Image Processing Iphone Drop Down Menu Twitter Bootstrap Jquery Mobile Linq 3d Flask Oauth 2.0 Paypal Computer Science Here Api Menu Grails Javafx 2 Gps Netlogo Openlayers Sharepoint 2007 Macos Com Configuration Botframework Sql Rxjs Mvvm Sql Server 2008 R2 List Macros Glassfish Wix Openerp Omnet++ Scala Windows Phone 7 Electron Bootstrap 4 Amazon Web Services Google Drive Api Hbase Angular6 Ios8 Office Js Hybris Concurrency Erlang Xaml Design Patterns Linker Windows Store Apps Unity3d Math Netsuite Silverlight Sml Telegram Web Services Push Notification Three.js Scikit Learn Couchbase Ssh Influxdb Blockchain Composer Php Qt4 Android Emulator File Io Twitter Bootstrap 3 Ember.js Google Cloud Platform Url Drupal 7 Sqlite Subsonic Artificial Intelligence Path Php Dynamics Crm 2011 Qml Docusignapi Asp.net Mvc Dataframe Mapbox Machine Learning Orm Angular Material Pagination Windows Services Dll Windows Phone 8 Google Maps Jsf 2 Raspberry Pi EmptyTag Jquery Calendar Sparql Aem Osgi Pytorch Ssl Postman Matlab Zend Framework Android Layout Crystal Reports Netty Applescript Cakephp Open Source Data Binding Android Studio Corda Mariadb Telerik Opencl Vb6 Pdf Mongodb Extjs Verilog Dictionary Fullcalendar Networking Puppet Google Chrome Extension Webview Tridion

Copyright © 2024. All Rights Reserved by - Fatal编程技术网