Join 在不重复组合的情况下连接两个数据帧列_Join_Pyspark_Inner Join - Fatal编程技术网

Join 在不重复组合的情况下连接两个数据帧列

join pyspark

Join 在不重复组合的情况下连接两个数据帧列,join,pyspark,inner-join,Join,Pyspark,Inner Join,我想加入两个数据帧的“item”列 Dataframe1(df1) id item 1 1 1 2 1 2 Dataframe2(df2) _id item 44 1 44 2 44 2 为了返回匹配的值，我尝试了内部联接 out= df1.join(df2, df2.item==df1.item, 'inner') +---+----+----+---+ | id|item|item|_id| +---+-

我想加入两个数据帧的“item”列

Dataframe1(df1)
id    item
 1      1
 1      2 
 1      2

Dataframe2(df2)
_id    item
 44    1
 44    2
 44    2

为了返回匹配的值，我尝试了内部联接

 out= df1.join(df2,  df2.item==df1.item, 'inner')
 +---+----+----+---+
 | id|item|item|_id|
 +---+----+----+---+
 |  1| [1]| [1]| 44|
 |  1| [2]| [2]| 44|
 |  1| [2]| [2]| 44|
 |  1| [2]| [2]| 44|
 |  1| [2]| [2]| 44|
 +---+----+----+---

但我希望得到如下结果，不包括重复匹配组合

+---+----+----+---+
 | id|item|item|_id|
 +---+----+----+---+
 |  1| [1]| [1]| 44|
 |  1| [2]| [2]| 44|
 |  1| [2]| [2]| 44|
 +---+----+----+---+

另一个例子可能是

Dataframe1(df1)
id    item
 1      1
 1      2 
 1      1

Dataframe2(df2)
_id    item
 44    1
 44    2

结果应该是

+---+----+----+---+
| id|item|item|_id|
 +---+----+----+---+
 |  1| [1]| [1]| 44|
 |  1| [2]| [2]| 44|
 +---+----+----+---+

试试这个：

选择不同的a.id、a.item、b.id、b.item 来自DF1A 内连接df2 b 在a.item=b.item上按项目订购
它肯定会解决您的问题。
使用
删除重复项（）实现这一点的最佳方法是使用左半连接 df1 = spark.createDataFrame([(1,1),(1,2),(1,2)],['id','item']) df2 = spark.createDataFrame([(44,1),(44,2),(44,2)],['id','item']) df1.join(df2, df2.item==df1.item, 'left_semi').show() df1 = spark.createDataFrame([(1,1),(1,2),(1,2)],['id','item']) df2 = spark.createDataFrame([(44,1),(44,2),(44,2)],['id','item']) df1.join(df2, df2.item==df1.item, 'left_semi').show()

[pyspark]相关文章推荐

使用pyspark连接Microsoft SQL Server时引发错误： pyspark

在PySpark数据框中为n行添加一个关键元素 pyspark

如何将每个元素存储到dictionary并使用pyspark计算dictionary值？ pyspark

PySpark，从数据框中创建线图，数据框上没有“类别” pyspark

Pyspark 无法使用Spark avro读取DataProc Spark中的avro pyspark

如何使用模式匹配从pyspark数据帧中删除行？ pyspark

使用Pyspark显示URL图像 pyspark

Pyspark 如何在spark.dataframe中对分组数据进行编码？ pyspark

无法将spark数据帧写入PySpark中的C驱动器的拼花文件格式 pyspark

如何将pyspark数据帧拆分为多个记录数相等的数据帧 pyspark

Pyspark 删除多于4个的重复项。最多只能保留4个副本 pyspark

如何在pyspark中通过在特定条件下添加列来丰富dataframe？ pyspark

GroupBy在PySpark数据帧问题上使用时间频率 pyspark

Pyspark 皮斯帕克。如何确保每日增量数据没有重复的UUID作为配置单元中的PK pyspark hive

Pyspark数据帧返回不一致的结果 pyspark

Pyspark：使用平衡类获取n个样本 pyspark

使用只保留唯一值的列组合连接两个pyspark数据帧 pyspark

在AWS EMR中，来自Jupyter，pyspark和#x27；s配置单元启用的spark会话仅显示默认数据库，而不是所有配置单元数据库 pyspark jupyter-notebook

提高Pyspark RDD的性能 pyspark

Pyspark：无停顿地查找时间戳数据块 pyspark

随机文章推荐

Robotframework 使用「；“如果声明”；机器人框架内 robotframework

如何在robotframework中执行键盘操作（向下翻页、向上翻页）？ robotframework

Robotframework 创建全局变量并为其分配随机字符串 robotframework

Robotframework Robot框架，将变量从套件设置传递到测试套件 robotframework

Robotframework 在Robot框架中将变元作为返回值处理 robotframework

Robotframework 机器人框架：停止运行RF尚未启动的服务 robotframework

Robotframework Selenium2库和ExtendedSelenium2库之间的版本兼容性问题 robotframework

在Robotframework中创建报告 robotframework

Robotframework WebDriverException:消息：'；chromedriver'；可执行文件需要在路径中 robotframework

Robotframework 基于robot框架的机器重启 robotframework

Robotframework 机器人框架中的If-else循环 robotframework

Robotframework 如何使用robot框架滚动定位器 robotframework

Robotframework 机器人框架没有关键字建议 robotframework

[join]相关推荐

Join 连接-两个表
Join

Join 嵌套多个连接
Join Symfony1 Doctrine

Join 有没有更好的方法将多个字段连接到同一个表？
Join

Join 从数据库中获取具有连接实体的整个实体并避免延迟加载，nHibernate QueryOver
Join Fluent Nhibernate

Join 无法在CDbCriteria中进行内部联接
Join Yii

Join CouchDB中的三重连接？
Join Couchdb

Join 两个表的联接不返回行
Join Abap

Join 使用具有重叠列名的熊猫连接多个数据帧？
Join Merge Pandas

Join 通过对DocumentDb中的嵌套类应用联接来获取父记录
Join Azure Cosmosdb

Join 在Firebird上只加入一次过程
Join Stored Procedures

Join 弗林克：我怎样才能在一对多的流中立即发出输出；参加
Join Triggers Apache Flink

Join 交叉连接集合和GroupBy CosmosDB Javascript API
Join Azure Cosmosdb

Tags

Powershell Knockout.js Grid Oracle Apex Qml Statistics Adobe Wix Django Models Requirejs Datetime Azure Active Directory Internationalization Neural Network Websocket Android Ndk Express Python 3.x File Upload Gstreamer Amazon Redshift Scroll Pointers Xpath Activerecord Wolfram Mathematica Jquery Properties Yii2 Go C++ Fluent Nhibernate Bison Dll Migration Caching Passwords Csv Opencv Tags Discord.js Jaxb Curl Parse Platform Cocoa Touch Clang Jasmine Video Language Agnostic Coldfusion Dns Mongodb Ruby On Rails 3.2 Sql Windows Store Apps Mercurial Ecmascript 6 Com Quickbooks Less Winforms Google Cloud Dataflow Certificate Routes Image Processing Pascal Appium Ms Office Swing Google Api Oauth Web Ruby On Rails 3 Facebook Graph Api Google Drive Api Objective C Kernel Imagemagick Log4net Fiware Gps Clearcase Devexpress Centos Anaconda Pagination 3d Sql Server 2012 Gatsby Razor Nlp Pine Script Sequelize.js Webpack Perforce Macos Hadoop Modelica C# 4.0 Visual C++ Variables Dictionary Titanium Io Ssrs 2008 Speech Recognition Jenkins Process Exception Phpunit Button Marklogic Syntax Colors Session Artifactory Proxy Windows 10 Prometheus Directory Lua Numpy Assembly Oracle Stanford Nlp Drop Down Menu Julia Vmware Glsl Makefile Dynamic Push Notification Grafana Wcf Sip Telerik Iphone Url Rewriting Linux Email Continuous Integration Meteor Ibm Cloud Collections Odoo Rx Java Windows 8 Pdf Eclipse Rcp Sencha Touch Selenium Mysql Google Maps Api 3 Cmd Erlang Tcl Struct Hyperledger Fabric Deployment Scikit Learn Angular Mariadb Plot Editor Redis Webstorm Itext Sorting Ag Grid Php Time Asterisk Error Handling Spring Cloud Lotus Notes Sed Scala Bash Twig Openstack Shopify Azure Functions Vim Autodesk Forge File Emacs Authentication User Interface Streaming Scripting Content Management System Ssas Big O Dependencies Plugins Bootstrap 4 Vuejs2 Office365 Zsh Virtualbox Validation

Copyright © 2024. All Rights Reserved by - Fatal编程技术网