Python 从Pyspark中的多列获取值_Python_Pyspark - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/337.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从Pyspark中的多列获取值_Python_Pyspark - Fatal编程技术网

Python 从Pyspark中的多列获取值

python pyspark

Python 从Pyspark中的多列获取值,python,pyspark,Python,Pyspark,请看一下输入和预期输出，并建议我在Pyspark中处理它的有效方法输入：带有 C1 x y 11 a 1 12 a 2 13 b 5 14 b 6 16 c &b 17 c 7 18 c b 当C1、x和y为列时预期产出： C1 x y z 11 a 1 [1] 12 a 2 [2] 13 b 5 [5] 14 b 6 [6] 16 c &b [5,6] 17 c 7 [7]

请看一下输入和预期输出，并建议我在Pyspark中处理它的有效方法

输入：带有

当C1、x和y为列时

预期产出：

C1 x  y  z  
11 a  1  [1]  
12 a  2  [2]  
13 b  5  [5]  
14 b  6  [6]  
16 c  &b [5,6]  
17 c  7  [7]  
18 c  b  [5,6]

“z”是预期的列，它应该在其中为“c”获取相应的“b”值

对于'c'而言，第五行的b和b的价格应为[5,6]

提前感谢尝试此功能，使用在上进行自连接 df.show() #sampledataframe #+---+---+---+ #| C1| x| y| #+---+---+---+ #| 11| a| 1| #| 12| a| 2| #| 15| b| 5| #| 16| b| 6| #| 17| c| &b| #| 17| c| 7| #| 18| c| b| #+---+---+---+ df.join(df.groupBy("x").agg(F.collect_list("y").alias("y1"))\ .withColumnRenamed("x","x1"),F.expr("""y rlike x1"""),'left')\ .withColumn("z", F.when(F.col("y").cast("int").isNotNull(), F.array("y"))\ .otherwise(F.col("y1"))).drop("x1","y1").show() #+---+---+---+------+ #| C1| x| y| z| #+---+---+---+------+ #| 11| a| 1| [1]| #| 12| a| 2| [2]| #| 15| b| 5| [5]| #| 16| b| 6| [6]| #| 17| c| &b|[5, 6]| #| 17| c| 7| [7]| #| 18| c| b|[5, 6]| #+---+---+---+------+

[pyspark]相关文章推荐将pyspark数据帧转换为LabeledPoint，而不降低到RDD pyspark Pyspark 如何基于时间戳差异高效地连接两个日期框？ pyspark Pyspark 使用'时出错；textFile.count（）'； pyspark Pyspark：与部分键连接 pyspark Pyspark-将列表/元组传递给toDF函数 pyspark PySpark带来了巨大的恐惧，但该模块实际上存在并且运行良好 pyspark Pyspark 将spark back中的mapType列与原始数据帧联接/展开 pyspark 调用o26.createStream-pyspark，kafka时出错 pysparkapache-kafka 使用pyspark“读取拼花地板文件时出错；必填字段'；版本'；在序列化数据中找不到&引用； pyspark 将pyspark数据帧转换为JSON时出现性能问题 pyspark 按数组中的特定记录分组（pyspark） pyspark pyspark中基于日期列的条件语句 pyspark 查找PySpark中window.partitionBy上提取最小值的行值 pyspark Pyspark群集模式异常-Java网关进程在向驱动程序发送其端口号之前退出 pysparkairflow Pyspark 用上一个和下一个非缺失值填写行缺失值 pyspark 通过将具有fillna的两列与pyspark中的现有列值连接起来，创建新列 pyspark Pyspark 星火销售团队 pysparkjarsalesforce 使用“错误”；附加“；使用Pyspark saveAsTable方法的模式 pyspark wrker.py的Pyspark（Jupyter）中没有模块错误 pysparkjupyter-notebook pyspark.ml随机森林模型要素重要性结果是否为空？ pyspark 随机文章推荐在第n个子项中使用SASS变量？ sass 无法在SASS中编译注释 sass Sass 生成精灵时添加前导斜杠的指南针 sass Sass SCSS动态媒体查询创建 sass Sass 指南针、Gruntjs和Boor安装基础-导入路径 sass Sass 西纳特拉资产包isn'；t缓存破坏@imported文件 sass Grunt和sass入门（部分） sassgruntjs Sass 使用compass查看并编译现有的scss文件夹 sass Sass 为什么可以'；我在透明化中使用十六进制颜色$var（在@each循环中） sass Sass 停止Web Essentials 2013自动将已编译的CSS文件添加到项目中 sassgruntjs Gulp sass使用*.scss查看缺少的属性值 sassgulp Sass 带&；的嵌套选择器；（电流互感器）不工作 sass Sass 将SCSS文件监视程序更改为仅在保存到PhpStorm后启动 sassphpstorm sass/样式表网页包加载程序中的单引号/双引号错误？ sasswebpack Sass 升华文本双击高亮显示修改 sasssublimetext3 SASS前缀自定义元素 sass Sass 在SCSS中使用函数和if语句 sass Sass Nativescript-组件内部具有ns暗模式的布局的角度更改背景色 sassnativescript Sass Nativescript复合组件 sassnativescript Sass 如何覆盖引导4中的所有颜色？ sassbootstrap-4

[python]相关推荐 Tags Download Azure Data Factory Apache Storm Polymer Joomla Navigation Qt4 Phpstorm Ipython Wpf Localization Jasmine Asp.net Post Vhdl Spring Security Linker Video Google Visualization Tomcat Zurb Foundation Haskell Sugarcrm Forms Symfony1 Nunit Hyperlink Inno Setup Windows Phone 8 Postgresql Lotus Notes Linq Selenium Oop Windows 10 Powerbi Python 2.7 Struts2 Windows Phone Dynamics Crm Reactjs Process Rally Xamarin.forms Oracle Big O Log4j Sharepoint Yii2 Django Rest Framework Google Plus Http Crystal Reports View Ssis Ethereum Frameworks Opencv Ipad Date Youtube Yaml Indexing Centos Authentication Objective C Prestashop Ansible Python 3.x Autodesk Forge Wcf If Statement Install4j Stripe Payments Web Scraping Mqtt Kentico Coding Style Amazon Dynamodb Map Visual C++ Akka Responsive Design Actionscript 3 Javafx Telegram Moodle Phpmyadmin Asp.net Core Active Directory Automation Blackberry Notifications Actionscript Jvm Vue.js Plsql Cluster Computing Git Pip Telerik Nest Blockchain Actions On Google Tableau Api Rdf Computer Vision Unity3d Clearcase Google Chrome Xcode Open Source Sprite Kit Windows Store Apps Wicket Tinymce Scala Node.js Flash Exception Gatsby Boost Snmp Exchange Server Service Oauth 2.0 Rss Applescript Maven Visual Studio 2015 Ibm Mobilefirst Json Parallel Processing Cocoa Web Transactions Grid Servlets Input Validation Matplotlib Shell Bison Cucumber Artifactory Amp Html Neural Network Azure Devops Algorithm Filesystems Cocos2d X Api Redux Curl Here Api Cobol Socket.io Domain Driven Design Events Rust Solr Gcc Join Mapbox Ffmpeg Meteor Playframework Silverstripe Ms Access Drupal Loops Tcl Racket Processing Usb Nservicebus Orm Heroku Office365 For Loop Testing Button Matrix Karate Latex Webpack Listview Gstreamer Shopify Exception Handling Mercurial Unit Testing Julia Lucene D Apache Pig Ionic2 Soap Outlook Hash Three.js

Copyright © 2024. All Rights Reserved by - Fatal编程技术网