Python 如何创建与源RDD中共享密钥的元素的成对RDD？_Python_Apache Spark_Pyspark_Spark Graphx - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/299.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何创建与源RDD中共享密钥的元素的成对RDD？_Python_Apache Spark_Pyspark_Spark Graphx - Fatal编程技术网

Python 如何创建与源RDD中共享密钥的元素的成对RDD？

python apache-spark pyspark

Python 如何创建与源RDD中共享密钥的元素的成对RDD？,python,apache-spark,pyspark,spark-graphx,Python,Apache Spark,Pyspark,Spark Graphx,我在pyspark中有一个键值RDD，并希望返回源RDD中具有相同键的成对RDD #input rdd of id and user rdd1 = sc.parallelize([(1, "user1"), (1, "user2"), (2, "user1"), (2, "user3"), (3,"user2"), (3,"user4"), (3,"user1")]) #desired output [("user1","user2"),("user1","user3"),("user1","

我在pyspark中有一个键值RDD，并希望返回源RDD中具有相同键的成对RDD

#input rdd of id and user
rdd1 = sc.parallelize([(1, "user1"), (1, "user2"), (2, "user1"), (2, "user3"), (3,"user2"), (3,"user4"), (3,"user1")])

#desired output
[("user1","user2"),("user1","user3"),("user1","user4"),("user2","user4")]

到目前为止，我还无法找到正确的函数组合来实现这一点。其目的是根据共享的公用密钥创建用户的边缘列表。

据我所知，您的描述应该是这样的：

output = (rdd1
   .groupByKey()
   .mapValues(set)
   .flatMap(lambda kvs: [(x, y) for x in kvs[1] for y in kvs[1] if x < y])
   .distinct())

output=（rdd1
.groupByKey（）
.mapValues（设置）
.flatMap（λkvs:[（x，y）表示x英寸kvs[1]表示y英寸kvs[1]如果x


不幸的是，这是一个相当昂贵的操作。
我认为您可以尝试aggregateByKey（）并实现一些您自己的逻辑，以获得比groupByKey（）稍好的性能。在最终合并之前，将首先在分区侧合并。@ChrisChambers示例输入中没有任何内容表明每个键都有重复的值，因此mapValues（set）
只是一种预防措施。否则当然值得一试。




[apache spark]相关文章推荐



                                                        
Apache spark 纱线上的火花流-容器运行超出物理内存限制
apache-spark 
Apache spark 当使用netcat在spark streaming中处理日志时，它会删除最后几行吗？
apache-spark 
Apache spark PySpark-RDD到ALS输出中的数据帧
apache-sparkpyspark 
Apache spark Spark中的sort和orderBy函数有什么区别
apache-spark 
Apache spark 基于EMR集群的GC优化
apache-sparkjvm 
Apache spark 具有两个日期列的Spark时间序列查询
apache-sparkpyspark 
Apache spark Spark aggregateByKey：使用钥匙
apache-spark 
Apache spark Spark-分别加载多个文件
apache-spark 
Apache spark 如何转换RDD结构
apache-spark 
Apache spark 如何使用spark进行并行操作
apache-sparkpyspark 
Apache spark 来自Kafka的Spark 2.4.0结构化流式容错
apache-sparkapache-kafka 
Apache spark 如何在GCP Apache Spark Dataproc群集上将Apache Hive升级到版本3
apache-sparkhive 
Apache spark Spark中的蓄能器和collect（）之间的性能差异是什么？
apache-spark 
Apache spark Spark S3写入-写入存储桶时出现访问被拒绝错误
apache-sparkamazon-s3 
Apache spark 在决定星火结构化流与微服务时要考虑什么，既从卡夫卡读取数据
apache-sparkmicroservices 
Apache spark 皮斯帕克和卡桑德拉
apache-sparkpysparkcassandra 
Apache spark 有没有什么方便的方法来开发Spark源代码？
apache-spark 
Apache spark Executor Memory：用于存储缓存在内存中的RDD分区等数据的已用内存与总可用内存
apache-spark 
Apache spark 在Spark中持久化数据集时出现访问被拒绝异常
apache-sparkhadooppyspark 
Apache spark Pyspark如何在目录中循环获取文件并计算行数
apache-sparkhadooppyspark 
                                       





随机文章推荐



                                                        
Ios5 来自加速度计的速度
ios5 
Ios5 如何从应用程序内的网站获取数据？
ios5web 
Ios5 如何在报摊暂停并恢复下载？
ios5 
Ios5 将值从表传递到选项卡栏控制器
ios5xcode4 
Ios5 UIPageView-控制翻页速度
ios5 
Ios5 选择ios时更改选项卡栏图像颜色
ios5tabs 
使用异步请求处理ios5中本机包含的url重定向的简单示例？
ios5 
Ios5 我正在尝试编写一个简单的游戏，当球移动到某个区域时，视图将更改为另一个视图（下一级别）
ios5xcode4 
iPhone4 iOS5是否有物理引擎可以将CMDeviceMotion事件转换为置换？
ios5 
Ios5 CCMenuItemImage更改运行时cocos2d
ios5cocos2d-iphone 
Ios5 Tabgroup无法在Tianium studio中使用IOS 6模拟器打开
ios5ios6 
iOS 6.0上的GKSession无法'；见'；关于iOS5.1的会议
ios5ios6


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Tkinter
Glassfish
Ios6
Data Structures
Codenameone
Validation
Compiler Errors
Jdbc
Objective C
Joomla
Iframe
Zend Framework2
Xslt
Testing
Smalltalk
Leaflet
Swing
Assembly
Delphi
Ruby On Rails 3
Google Api
Jquery Plugins
Ssas
Protractor
Geometry
Puppet
Webstorm
View
Plsql
Kibana
C++
Llvm
Prometheus
Command Line
Anaconda
Amazon Cloudformation
Bots
Kubernetes
Postman
Cuda
Dotnetnuke
Sql Server 2008 R2
Routing
Django
Grid
Blazor
E Commerce
Cucumber
Routes
Tcl
Mariadb
Gps
Sails.js
Applescript
Powershell
Twitter Bootstrap
Iis
Vbscript
Encoding
Video Streaming
Google Colaboratory
Angular6
Google Maps
Google Apps Script
Scripting
Database
Docusignapi
Ftp
Protocol Buffers
Hazelcast
Modelica
Drupal 6
Imagemagick
Date
Jira
Pandas
Vector
Eclipse Rcp
Wordpress
Visual Studio 2012
Isabelle
Uiview
Big O
Visual Studio 2015
Codeigniter
Path
Struts2
Tags
Hibernate
Typo3
Shiny
Ecmascript 6
Openshift
Visual C++
Login
Gdb
Asp.net Mvc 2
Ipython
Pine Script
Netsuite
Docker
Architecture
Phpmyadmin
Opencl
Jwt
Internet Explorer
Transactions
Dom
Acumatica
Websphere
Paypal
Sed
Phpunit
Julia
Elm
Fullcalendar
Apache Flex
Graphql
Jekyll
Floating Point
Gnuplot
Multithreading
Spring Mvc
Computer Vision
Redirect
Ios
Google Chrome Devtools
Youtube Api
Dynamics Crm 2011
Triggers
Virtual Machine
Jqgrid
Azure Ad B2c
Dask
Xamarin.ios
Collections
Numpy
Xamarin.android
Coding Style
Mips
Clearcase
Activemq
Core Data
Compilation
Cocos2d X
Silverlight 4.0
Vba
Windows
Memory Management
Telegram
User Interface
Directx
Sencha Touch 2
Axapta
Windows 8
Symfony1
Ssis
Jhipster
Breeze
Selenium Webdriver
Karate
Scroll
Ruby
Ubuntu
Web Scraping
Php
Sonarqube
Select
Ip
Xsd
Nhibernate
Spring Batch
Unix
Image
Fluent Nhibernate
Jenkins
Sequelize.js
Ignite
Cypress
Rally
Csv
Kotlin
Process
Sugarcrm
Ajax
Monitoring
C++ Cli
Selenium
Oracle11g
Firefox Addon
Windows Phone
Performance
Jar
Ios7
Input
Amp Html
Ada
Macros
Swiftui
Junit
Arm


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网