基于键的DF上的pySpark COGROUP操作_Pyspark - Fatal编程技术网

基于键的DF上的pySpark COGROUP操作

pyspark

基于键的DF上的pySpark COGROUP操作,pyspark,Pyspark,我想对两个关系A和B分别使用A_键和B_键执行coGroup操作我尝试通过对单个关系执行groupBy操作，然后连接它们来实现这一点，但我发现在PySpark api文档中的PySparkDF的情况下，您无法对分组数据执行连接操作我与20多个字段有关系，关键不是关系的第一个字段。因此，为了应用cogroup函数，我需要将键设置为第一列。如果我不知道模式，但只知道键名，怎么做如果你知道所有其他字段名，你可以做，DF.select（'key column'，other columns…） cog

我想对两个关系

和

分别使用

A_键和B_键执行coGroup
操作
我尝试通过对单个关系执行groupBy
操作，然后连接它们来实现这一点，但我发现在PySpark api文档中的PySpark
DF的情况下，您无法对分组数据执行连接操作
我与20多个字段有关系，关键不是关系的第一个字段。因此，为了应用cogroup函数，我需要将键设置为第一列。如果我不知道模式，但只知道键名，怎么做如果你知道所有其他字段名，你可以做，DF.select（'key column'，other columns…）
cogroup(other, numPartitions=None)
For each key k in self or other, return a resulting RDD that contains a tuple with the list of values for that key in self as well as other.
>>> x = sc.parallelize([("a", 1), ("b", 4)])
>>> y = sc.parallelize([("a", 2)])
>>> [(x, tuple(map(list, y))) for x, y in sorted(list(x.cogroup(y).collect()))]
[('a', ([1], [2])), ('b', ([4], []))]




[visual studio code]相关文章推荐



                                                        
Visual studio code VS代码-切换时重新加载选项卡
visual-studio-code 
Visual studio code 是否在Visual Studio中的“触发器按键”选项卡上创建代码段？
visual-studio-code 
Visual studio code 在VisualStudio代码中是否有将注释斜体化的方法？
visual-studio-code 
Visual studio code 电子发射失败-mksnapshot@1.6.0安装脚本
visual-studio-code 
Visual studio code VisualStudio代码在哪里存储与项目相关的内容？
visual-studio-code 
Visual studio code 在VS代码中管理缩进设置
visual-studio-code 
Visual studio code 如何排除一个多根工作区文件夹中的所有文件，以便在visual studio代码中进行搜索？
visual-studio-code 
Visual studio code Visual Studio代码：无法监视文件更改。为什么？
visual-studio-code 
Visual studio code VS代码：如何将命令调色板永久粘贴到UI
visual-studio-code 
Visual studio code 如何在package.json的VS代码属性描述中包含命令链接？
visual-studio-code 
Visual studio code vscode生成大型配置文件
visual-studio-code 
Visual studio code 打开文件夹后打开文本文档
visual-studio-code 
Visual studio code Visual Studio代码无扩展名文件的多行注释
visual-studio-code 
Visual studio code 有没有办法改变VScode中注释的背景颜色？
visual-studio-code 
Visual studio code Can'；t使用VSCode打开远程服务器中现有的jupyter笔记本
visual-studio-codesshjupyter-notebook 
Visual studio code 无法转到vscode中sshfs代码的定义
visual-studio-code 
Visual studio code 当出现点或连字符时，选择VSCode中的当前单词？
visual-studio-code 
Visual studio code VSCode在jsconfig.js中抱怨无法找到节点\模块/源映射/源映射
visual-studio-code 
Visual studio code 我是不是在写东西或下载东西时做错了什么
visual-studio-code 
Visual studio code 如何更改shell格式与代码扩展的格式选项？
visual-studio-code 
                                       





随机文章推荐



                                                        
Highcharts 多重数列海图
highcharts 
Highcharts 未来几天的高库存范围选择器
highcharts 
Highcharts 只有第一类出现。很多元素
highcharts 
Highcharts带文本标签的仪表图表
highcharts 
Highcharts 对于highstocks数据分组，如果数据组中的样本数少于一定数量，是否可以将数据组点设置为null？
highcharts 
找不到HighCharts ShowOut的闪亮服务器
highcharts 
Highcharts 是否有可能在海图中绘制超过35000个点
highcharts 
共享工具提示定位器点.plotY在Highcharts堆叠列中始终为0
highcharts 
隐藏图例上的链接系列悬停在Highcharts中
highcharts 
Highcharts：在副标题中显示导航器范围
highcharts


                                        

                                        
                                        


                                                
                                                        [pyspark]相关推荐
                                                        
Pyspark Spark 1.5元素产品
									Pyspark
							 
使用api newAPIHadoopFile，spark 1.2从pyspark访问ORC文件时出错
									Pyspark
							 
Pyspark 结合spark使用DEAP（遗传算法库）
									Pyspark
							 
Pyspark Snappydata的数组大小不能超过1000
									Pyspark
							 
PySpark-当值为“时，如何使用模式读取BooleanType”；"；及；f"；
									Pyspark
							 									Amazon Redshift
							 
Pyspark TypeError:参数无效，不是字符串或列
									Pyspark
							 
Pyspark 当窗口定义中存在orderBy时，窗口函数count（）无法正常工作
									Pyspark
							 
Pyspark pypsark中有一个错误，它声明：TypeError:“Column”对象不可调用
									Pyspark
							 
Pyspark 如何转换日期格式'；YYYY-MM-DD'；到Pypark的ddMMyy？
									Pyspark
							 
Pyspark 从sqoop导入序列文件
									Pyspark
							 
Pyspark将StructType传递到架构时出错
									Pyspark
							 
org.apache.spark.sql.AnalysisException:无法解析pyspark中给定的输入列“`sub_tot`”
									Pyspark
							 
使用Pyspark将不同的行值转换为具有相应行的不同列
									Pyspark
							 
Pyspark：根据regex筛选最近3天的数据
									Pyspark
							 
Pyspark：读取带有双引号和COMA字段的csv文件
									Pyspark
							 
使用PySpark写入数据帧时出错
									Pyspark
							 									Hive
							 
Pyspark 滚动窗口上的成对计数
									Pyspark
							 
Pyspark 动态更新阈值和重置运行总数
									Pyspark
							 
Pyspark 已启用进程隔离的群集上尚不支持Databricks Connect
									Pyspark
							 									Azure Active Directory
							 
Pyspark 发送至Spark Cell Magic数据帧大小配置
									Pyspark
							 									Jupyter Notebook
							 
Pyspark Dataframe写入拼花地板分区文件夹名称
									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Amazon Redshift
Mediawiki
Docker
Binary
Xslt
Ag Grid
Arangodb
Active Directory
Jsf 2
Scroll
Vector
Time Complexity
Linux Kernel
Powerbi
Ibm Midrange
Amazon Web Services
Magento
Security
Sap
Maven 2
Sharepoint 2007
Sip
Sqlite
Akka
Svn
Mercurial
Dynamic
Xmpp
Cypress
Asp.net
Proxy
Tags
Printing
Jakarta Ee
Rxjs
Open Source
Loops
List
Javafx 2
Web Scraping
Apache Zookeeper
Google Compute Engine
Datetime
Stm32
Types
Imagemagick
Postman
Migration
Jira
Haskell
Authentication
Emacs
Internet Explorer 8
System Verilog
Magento2
Instagram
Jaxb
Docusignapi
Drupal 6
Netty
Aurelia
Git
Ajax
Installation
Google Maps
Combobox
Frameworks
Nhibernate
Ibm Mobilefirst
Search
Uiview
Webrtc
Spring Boot
Server
Gstreamer
Bazel
Language Agnostic
3d
Websphere
Wxpython
Clearcase
Excel Formula
Kibana
Common Lisp
Asp.net Core Mvc
Python Sphinx
Material Ui
Sphinx
.net 4.0
Windows
Laravel
Flask
Scikit Learn
Actionscript 3
Image Processing
Xamarin.android
Editor
Nuget
Iis
Curl
Properties
Flutter
Stream
Http
Teradata
Oop
Ibm Cloud
Logstash
Indexing
Discord.js
Triggers
Grafana
Windows 10
Salesforce
Drools
Filesystems
Linker
Pagination
Tcl
Monitoring
Date
Shell
Glsl
Xpath
Google Analytics
Jenkins
Input
Speech Recognition
Canvas
Unicode
Sitecore
Heroku
Swing
Arrays
Lambda
Apache Pig
Web Crawler
Rspec
Neo4j
Google Cloud Firestore
Html5 Canvas
Mpi
Gmail
Android Fragments
Select
Reactjs
Asp.net Core
Computer Vision
Dynamics Crm 2011
Sublimetext3
Documentation
Uwp
Appium
Windows Phone 8
Pip
F#
Typescript
Ionic2
Racket
Actionscript
Permissions
Algorithm
Google Maps Api 3
Xquery
Polymer
Pytorch
Ethereum
Processing
Yii
Optimization
Delphi
Ignite
Subsonic
Autocomplete
Ms Word
Blazor
Function
Highcharts
Audio
Xampp
Navigation
Character Encoding
Matrix
Tridion
Big O
Wcf
Url
Certificate
Jpa
Azure Functions
Swagger
Swift3
Hadoop
Hazelcast
Gulp
Azure Data Factory
Jdbc
Jquery Plugins
Database
Grails
Symfony


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网