Apache spark 使用pyspark连接两个数据帧时合并相似的列名_Apache Spark_Pyspark Dataframes - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用pyspark连接两个数据帧时合并相似的列名_Apache Spark_Pyspark Dataframes - Fatal编程技术网

Apache spark 使用pyspark连接两个数据帧时合并相似的列名

apache-spark

Apache spark 使用pyspark连接两个数据帧时合并相似的列名,apache-spark,pyspark-dataframes,Apache Spark,Pyspark Dataframes,在下面的程序中，将在pyspark中连接两个数据帧时创建重复列 >>> spark = SparkSession.builder.appName("Join").getOrCreate() >>> dict=[{"Emp_id" : 123 , "Emp_name" : "Raja" }, {"Emp_id" : 456 , "Emp_name" : "Ravi"}] >>> dict1=[{"Emp_id" : 123 , "Dep_nam

在下面的程序中，将在pyspark中连接两个数据帧时创建重复列

>>> spark = SparkSession.builder.appName("Join").getOrCreate()
>>> dict=[{"Emp_id" : 123 , "Emp_name" : "Raja" }, {"Emp_id" : 456 , "Emp_name" : "Ravi"}]
>>> dict1=[{"Emp_id" : 123 , "Dep_name" : "Computer" } , {"Emp_id" : 456 ,"Dep_name"  :"Economy"}]
>>> df=spark.createDataFrame(dict)
>>> df1=spark.createDataFrame(dict1)
>>> df2=df.join(df1,df.Emp_id == df1.Emp_id, how = 'inner')

>>> df.show()
    +------+--------+
    |Emp_id|Emp_name|
    +------+--------+
    |   123|    Raja|
    |   456|    Ravi|
    +------+--------+

>>> df1.show()
    +--------+------+
    |Dep_name|Emp_id|
    +--------+------+
    |Computer|   123|
    | Economy|   456|
    +--------+------+

>>> df2=df.join(df1,df.Emp_id == df1.Emp_id, how = 'inner')


>>> df2.show()
+------+--------+--------+------+
|Emp_id|Emp_name|Dep_name|Emp_id|
+------+--------+--------+------+
|   123|    Raja|Computer|   123|
|   456|    Ravi| Economy|   456|
+------+--------+--------+------+

有没有其他方法可以像在SAS中一样通过覆盖列来获取join的结果，如下面所示的数据

 +------+--------+--------+
|Emp_id|Emp_name|Dep_name|
+------+--------+--------+
|   123|    Raja|Computer|
|   456|    Ravi| Economy|
+------+--------+--------+

在您的加入条件中，用['Emp\u id']
替换df.Emp\u id==df1.Emp\u id

df2=df.join(df1,['Emp_id'], how = 'inner') df2.show() #+------+--------+--------+ #|Emp_id|Emp_name|Dep_name| #+------+--------+--------+ #| 123| Raja|Computer| #| 456| Ravi| Economy| #+------+--------+--------+

[heroku]相关文章推荐

Heroku 雷克流产了！Don'；我不知道如何构建任务'；工作：工作'； heroku

Heroku HeloCu DB：在操作中间推送异常 heroku

在Heroku上设置PostgreSQL应用程序名称 heroku

运行正常的Heroku应用程序崩溃，无法重新启动 heroku amazon-web-services amazon-ec2

为什么我将应用程序部署到Heroku时会出现延迟？ heroku

如何在Heroku上安装charlock_holmes dependency libicu dev heroku ruby-on-rails-4

使用Heroku自定义域名 heroku

Heroku上的代理服务器 heroku ip

从Github部署到Heroku时如何查看日志？ heroku github

Heroku 赫罗库+；gunicorn不工作（bash:gunicorn:未找到命令） heroku

为什么heroku应用程序没有'；是否无法使用Tiddlywiki保存新文件？ heroku

连接到运行heroku phoenix应用程序 heroku elixir

Heroku、RabbitMQ和许多工人。什么是最好的架构？ heroku rabbitmq

Heroku与Rubymine的集成失败，出现错误“；请指定一个版本以及Heroku'；s API MIME类型；我 heroku

将域重定向到Heroku上托管的应用程序 heroku dns

API密钥不允许从IP访问（Heroku） heroku ip

“怎么可能？”；“去睡觉吧”；heroku dynos的时间是否设置为30分钟以外的值？ heroku

为什么我在“中看到2个IP地址？”；fwd"；查看Heroku日志时的信息？ heroku

Heroku 从http重定向到https时是否存在潜在的数据泄漏？ heroku redirect https

Heroku 我应该为前端和后端购买域名吗？ heroku

随机文章推荐

在MPI中，通信器和组之间有什么区别？ mpi

MPI：如果发送和接收大小不'；不匹配？ mpi

运行MPI程序时，如何知道错误进程号？ mpi

等待其他处理器在MPI中完成其任务 mpi

Mpi 有效的单边沟通 mpi

混合动力MPI的最佳运行方式&x2013；OpenMP作业 mpi

C语言中的MPI_势垒 mpi

MPI重用MPI_请求 mpi

MPI中的持久通信-奇数行为 mpi

打开共享库libmpi.so.12时出错 mpi

MPI生成：可用插槽不足/分配给此作业的所有节点都已填满 mpi

Mpi 带SLURM的非对称混合映射 mpi

如何将Python与使用MPI的C程序接口 mpi

为每个MPI列组分配N个核 mpi

MPI中的图像处理 mpi

OpenMPI如何实现数据类型转换？ mpi

使用mpirun来执行我的程序会大大降低性能 mpi

[apache spark]相关推荐

Tags

Pascal Prometheus Post Download Kdb Collections Rx Java Resharper Cypress Spring Automation Android Amazon Web Services Jvm Amazon Dynamodb Visual Studio Bootstrap 4 Visual Studio Code Sas Azure Sql Database Electron Scala Calendar Discord Generics Asp.net Core Racket .net 4.0 Asp.net Core Mvc Sml Processing Couchdb Gdb Clearcase Unix Qt Cloud Amp Html Vim Corda Java Me Isabelle Object Google Plus 3d Plsql Parameters Qt4 Phantomjs Spring Batch Xmpp Express Synchronization Variables Forms Graphviz Silverlight 4.0 Apache Kubernetes Web Acumatica .net Dotnetnuke Animation Telegram Dependency Injection Asp.net Mvc 2 Javafx Combobox Ibm Midrange Office365 Ionic Framework Windows Phone Plone Mpi Uwp Pytorch Servlets Maps Web Applications Api D Fullcalendar Pyspark Facebook Amazon Redshift Cobol Ms Office Dynamics Crm Cakephp Spring Mvc Snmp Asp Classic Nginx Xcode Visual Studio 2017 Stored Procedures E Commerce Vb.net Memory Leaks Vector Orientdb Active Directory Coffeescript Struts2 Extjs4 Unit Testing Firefox Addon Exception Css Gtk Stata Three.js Vaadin Swift3 Android Emulator Tridion Triggers Sugarcrm C# 4.0 C++11 Autodesk Forge Ssrs 2008 Geometry Silverstripe Excel Yocto Https Ag Grid Arangodb Ios Mvvm Hybris Merge Ignite Sql Server 2005 Plugins Asynchronous Woocommerce Spring Integration Opengl Es Visual Studio 2010 Frameworks Ldap Dll Ruby On Rails 3.1 Cygwin Telerik Exception Handling Next.js Latex Phpunit Ruby On Rails 3.2 Jersey Nuget Cocos2d Iphone Identityserver4 Tableau Api Rss Mono Itext Stream Logic Sphinx Algorithm Encoding Project Management Layout Elixir View Filter Aem Omnet++ .htaccess Certificate Zsh Timer EmptyTag Grep Ecmascript 6 Instagram Lucene Xslt Playframework 2.0 Session Swiftui Meteor Login File Upload Tsql Ant Apache Kafka System Verilog Interface Vagrant Spring Security Bash Cmake Netbeans Datetime Verilog

Copyright © 2024. All Rights Reserved by - Fatal编程技术网