Pyspark |使用值列表从键转换RDD>；具有键列表的值_Pyspark_Apache Spark Sql_Rdd - Fatal编程技术网

Pyspark |使用值列表从键转换RDD>；具有键列表的值

pyspark

Pyspark |使用值列表从键转换RDD>；具有键列表的值,pyspark,apache-spark-sql,rdd,Pyspark,Apache Spark Sql,Rdd,在pyspark中，如何将输入RDD（其中每个键都有一个值列表）转换为输出RDD（其中每个值都有它所属的键列表）输入 [(1, ['a','b','c','e']), (2, ['b','d']), (3, ['a','d']), (4, ['b','c'])] [('a', [1, 3]), ('b', [1, 2, 4]), ('c', [1, 4]), ('d', [2,3]), ('e', [1])] 输出 [(1, ['a','b','c','e']), (2, ['b','d'

在pyspark中，如何将输入RDD（其中每个键都有一个值列表）转换为输出RDD（其中每个值都有它所属的键列表）
输入

[(1, ['a','b','c','e']), (2, ['b','d']), (3, ['a','d']), (4, ['b','c'])]

[('a', [1, 3]), ('b', [1, 2, 4]), ('c', [1, 4]), ('d', [2,3]), ('e', [1])]
输出

[(1, ['a','b','c','e']), (2, ['b','d']), (3, ['a','d']), (4, ['b','c'])]

[('a', [1, 3]), ('b', [1, 2, 4]), ('c', [1, 4]), ('d', [2,3]), ('e', [1])]

首先展平并交换rdd上的键值，然后
groupByKey
：

rdd.flatMap（r[1]]中k的lambda r:[（k，r[0]））.groupByKey（）.mapValues（list.collect（）） #[（'a'，[1,3]），（'e'，[1]），（'b'，[1,2,4]），（'c'，[1,4]），（'d'，[2,3]）]
首先展平并交换rdd上的键值，然后
groupByKey
：

rdd.flatMap（r[1]]中k的lambda r:[（k，r[0]））.groupByKey（）.mapValues（list.collect（）） #[（'a'，[1,3]），（'e'，[1]），（'b'，[1,2,4]），（'c'，[1,4]），（'d'，[2,3]）]
当输入有1个键但有2个值（Int、String、list）时，如何使mapValues（list）工作？当输入有1个键但有2个值（Int、String、list）时，如何使mapValues（list）工作？

[snmp]相关文章推荐

SNMP：编写自定义MIB时要使用的OID snmp

SNMP v3似乎不起作用 snmp

Snmp推送机制 snmp

SNMP命令无法从设备本身运行。在不同的地点工作都很好 snmp

Snmp 如何扩展现有的OID树（并编写其MIB）？ snmp

SNMP请求是连续的吗？它们是否有可能多次到达 snmp

随机文章推荐

Vhdl 打个比方 vhdl

Vhdl Can'；t在ModelSim上编译自编程函数 vhdl

VHDL错误可以'；无法推断寄存器，因为其行为与任何受支持的寄存器模型都不匹配 vhdl

用于心跳传感器的Vhdl计数器 vhdl

Can'；是否在VHDL中对无符号执行逻辑操作？ vhdl

Vhdl 从FTDI同步FT245 FIFO读取返回零字节 vhdl

如何使用VHDL或Verilog设计可变位（m位）计数器？ vhdl verilog

VHDL语言中的火车售票机 vhdl

推荐的携带VHDL代码的方法是什么？ vhdl

Vhdl 将数据存储到zynq设备上的ram中 vhdl

VHDL-FPGA4U-Get开关值 vhdl

试图在VHDL中找到Fmax，但得到额外的延迟周期 vhdl

VHDL:从testbanch分配到inout端口 vhdl

VHDL信号分配是否设置目标值或参考？ vhdl

VHDL：如何将生成块的迭代器转换为标准逻辑向量？ vhdl

Vhdl 状态由两个进程控制的有限状态机 vhdl

Vhdl IS_X函数综合 vhdl

Vhdl 如何根据利用率比较两个电路 vhdl

从vhdl中的另一个常量初始化记录的常量数组 vhdl

Vhdl iCE40 Ultra Plus 5k——如何设置PLL（没有合适的GUI工具） vhdl

[pyspark]相关推荐

Pyspark：基于reducebykey rdd中的键执行
Pyspark

jupyter pyspark输出：无模块名称sknn.mlp
Pyspark Jupyter Notebook

使用条件返回PySpark DataFrame的行
Pyspark

Pyspark 如何迭代转置spark rdd的子矩阵？
Pyspark

我如何在Pyspark中定义一个空的数据帧并附加相应的数据帧？
Pyspark

如何计算PySpark中两个向量的余弦相似性？
Pyspark

Pyspark:executor服务器上的python包
Pyspark

如何修复：pyspark.sql.utils.IllegalArgumentException:列功能的类型不正确？
Pyspark

Pyspark 在Dataframe中拆分文本并检查是否包含子字符串
Pyspark

在pyspark数据帧中查找连续数据
Pyspark

使用PySpark通过Kerberos身份验证读取HDFS上的文件
Pyspark

Pyspark 读取文件并将其附加到spark数据帧中
Pyspark

Pyspark 在列上使用where条件时无法获取空声明
Pyspark

Pyspark spark中的覆盖行为
Pyspark

Pyspark 在进行数据转换时，如何减少迭代时间？
Pyspark

pyspark映射dataframe中的每一行，并应用返回dataframe的UDF
Pyspark

使用selectExpr在pySpark中强制转换数据帧列
Pyspark

Pyspark RandomForestClassifier没有属性转换，那么如何获得预测呢？
Pyspark

使用带条件的PySpark窗口函数添加行
Pyspark

pyspark，获取第一列值等于id，第二列值在两个值之间的行，对数据帧中的每一行执行此操作
Pyspark

逻辑回归：使用PySpark mllib和statsmodel获得相同的系数
Pyspark

如何连接循环逻辑生成的两个pyspark数据帧？
Pyspark

Pyspark 多表联接Pypark复杂查询
Pyspark

Pyspark:转换/转换为数字类型
Pyspark

Pyspark 3.0+；中的准确度、精密度和召回率等评估参数；。，Pyspark中的混淆矩阵
Pyspark

pyspark-如何添加从数据框中搜索新列值的列：
Pyspark

PySpark：如何计算两列中不同值的数量？
Pyspark

Tags

Ruby Robotframework Django Models Doctrine Orm Ios Unix Amazon S3 Loops Synchronization Reporting Services Editor Silverlight 4.0 Asynchronous Razor Mediawiki Gulp Url Twitter Tinymce Youtube Api Batch File Pip Streaming Generics Processing Postman Bison Drupal 6 Network Programming Macos Hibernate Graphviz Amazon Web Services Ssis Tabs Wix Subsonic Math Ubuntu Airflow Optimization Pytorch Cocos2d X Snowflake Cloud Data Platform Sqlite Activemq Django Rest Framework Google Cloud Platform Windows Phone 7 Time Complexity Assembly Cloud Foundry Three.js Awk Node.js Vector Odata Ssh Entity Framework Jsf Vue.js Akka Hybris Cryptography Facebook Graph Api Shiny Primefaces Ionic2 Tkinter Smalltalk Swift2 Plsql Puppet Ruby On Rails Deployment Ruby On Rails 4 Dynamics Crm 2011 Polymer Spring Security Android Emulator Stm32 Json Tcl Ruby On Rails 3 Algorithm Struts2 Localization Joomla Outlook Windows Mule Parameters Autocomplete Sencha Touch Hadoop Telerik Ibm Mobilefirst Coq Proxy Listview Dns Webgl Omnet++ Apache Zookeeper Eclipse Rcp Firefox Addon Azure Ad B2c C++ Language Agnostic Xpath Typo3 Tfs Debian Open Source Cmake Dotnetnuke Recursion Uitableview Opengl Es Xcode4 Cocos2d Iphone Netlogo Installation Cookies Terraform Pyspark Scrapy Openlayers Asp Classic Ip Search Prestashop Hazelcast Github Google Sheets Rspec Ecmascript 6 Merge Pagination Push Notification Ansible Electron Laravel 5 Log4j Google Apps Script Apache Camel Sass Ide Jersey Angular Smtp Qt4 Tree Kibana Flash Forms Symfony1 C# 4.0 Plugins Virtualbox Windows Phone 8.1 Log4net Certificate Asp.net Mvc Keycloak Windows Runtime List Kotlin Internationalization Geolocation Influxdb Ocaml Windows 7 Variables Google Maps Api 3 Discord.py Dependency Injection Jwt Graphics Couchdb Php Csv Filter Tcp Speech Recognition Fortran Jsp Ruby On Rails 3.2 Bots Teradata Curl Apache Pig Single Sign On Tsql Drools Shell Apache Kafka Google Calendar Api Reference Powerbi Performance

Copyright © 2024. All Rights Reserved by - Fatal编程技术网