在Pyspark中，如何将值列表作为新列添加到现有数据帧中？_Pyspark_Aws Glue_Pyspark Dataframes - Fatal编程技术网

在Pyspark中，如何将值列表作为新列添加到现有数据帧中？

pyspark

在Pyspark中，如何将值列表作为新列添加到现有数据帧中？,pyspark,aws-glue,pyspark-dataframes,Pyspark,Aws Glue,Pyspark Dataframes,我有一个Pyspark数据帧，如下所示： +--------+----+ | col1|col2| +--------+----+ | Apple| A| | Google| G| |Facebook| F| +--------+----+ #+--------+----+--------------+ #| col1|col2| col3| #+--------+----+--------------+ #| Apple| A|SFO

我有一个Pyspark数据帧，如下所示：

+--------+----+
|    col1|col2|
+--------+----+
|   Apple|   A|
|  Google|   G|
|Facebook|   F|
+--------+----+

#+--------+----+--------------+
#|    col1|col2|          col3|
#+--------+----+--------------+
#|   Apple|   A|SFO           |
#|  Google|   G|LA            |
#|Facebook|   F|NYC           |
#+--------+----+--------------+

我有一个值为[“SFO”、“LA”、“NYC”]的数组。我想将此数组作为新列添加到Dataframe，如下所示：

+--------+----+
|    col1|col2|
+--------+----+
|   Apple|   A|
|  Google|   G|
|Facebook|   F|
+--------+----+

#+--------+----+--------------+
#|    col1|col2|          col3|
#+--------+----+--------------+
#|   Apple|   A|SFO           |
#|  Google|   G|LA            |
#|Facebook|   F|NYC           |
#+--------+----+--------------+

在Pyspark中如何做到这一点？我不应该在我的解决方案中使用熊猫。

您可以使用

数组函数和星号*使用lit扩展列表，将您的列表放入新列的每一行。然后，您可以使用行数（）计算将计算结果发送到处的元素（Spark2.4+
from pyspark.sql import functions as F
from pyspark.sql.window import Window

w=Window().orderBy("col3")
arr=["SFO","LA","NYC"]

df.withColumn("col3", F.array(*[F.lit(x) for x in arr]))\
  .withColumn("rownum", F.row_number().over(w))\
  .withColumn("col3", F.expr("""element_at(col3,rownum)""")).drop("rownum").show()

#+--------+----+----+
#|    col1|col2|col3|
#+--------+----+----+
#|   Apple|   A| SFO|
#|  Google|   G|  LA|
#|Facebook|   F| NYC|
#+--------+----+----+

嗨，穆罕默德，我更新了上面的问题。我加了我想要的颜色。@srinin我明白了。lmk如果我的更新解决方案解决了它

[asp.net web api]相关文章推荐 Asp.net web api json负载中带有令牌的WebApi授权筛选器 asp.net-web-api Asp.net web api 否'；MediaTypeFormatter'；可用于读取类型为'；字符串'； asp.net-web-api Asp.net web api Web API和.NET 4.5：索赔和权利 asp.net-web-api Asp.net web api System.Web.Routing.RouteCollection不'；t包含“的定义”；MapHttpRoute"；-VS 2012，网络API asp.net-web-apivisual-studio-2012 Asp.net web api Web API参数绑定 asp.net-web-api Asp.net web api .Net Web API IActionFilter.OnActionExecuted返回类型 asp.net-web-api Asp.net web api Web.API在某些部署中工作，但在其他部署中返回404 asp.net-web-api Asp.net web api 在ASP.NETWebAPI中实例化数据访问对象 asp.net-web-api Asp.net web api 为什么可以'；我不能将这个Web Api参数绑定到查询字符串吗？ asp.net-web-api Asp.net web api ASP.NET Web API深度模型绑定 asp.net-web-api Asp.net web api 使用复合键的WebApi EntitySetController asp.net-web-api Asp.net web api 在ASP.NET WebApi路由中的{controller}之前添加自定义参数 asp.net-web-api Asp.net web api HttpWebRequest完成大文件流传输之前的Web API Post hit asp.net-web-api Asp.net web api 如何在GET to WEB API 2中发送复杂对象 asp.net-web-api Asp.net web api 读取多部分/表单数据两次 asp.net-web-api Asp.net web api 如何在GETAPI中使用Where子句 asp.net-web-api Asp.net web api 如何在每次API调用时动态更改连接字符串 asp.net-web-api Asp.net web api 向OWIN Web API中的GrantRefreshToken（）添加和检索新post参数的最佳方法 asp.net-web-apioauth-2.0 Asp.net web api RESTAPI可以在Web API服务中使用吗？ asp.net-web-api Asp.net web api Web API性能计数器 asp.net-web-api 随机文章推荐如何编写仅在任务文件中以前的任何其他任务发生更改时运行的Ansible角色任务？ ansible 在嵌套的ansible变量中不计算表达式 ansible Ansible:错误：ini条目无效 ansible 如何在Linux上重新启动Ansible主机？ ansible 如何下载和安装ansible模块？ ansible Ansible-无法使变量工作 ansible Ansible 按键存在筛选Jinja列表 ansible Ansible 如何在dict中获得密钥名，而不必命名每个密钥名？ ansible Ansible资源清册中主机之间的暂停时间 ansible Ansible playbook：在100台linux服务器中更改多个不同用户的帐户密码 ansible Ansible 检测地形中可能发生的变化并执行它们 ansibleterraform Ansible 如何使用anisble删除线条上方和下方的空格 ansible Ansible，主机管理，位于防火墙后面，具有动态IP ansible 如何将磁盘添加到VMware'；使用Ansible Official模块更高效地管理虚拟机主机？环境操作系统版本：CentOS 7.5 Ansible版本：2.8.4和python 2.7.5 ESXi和VCenter版本：6.5.2 目的 ansiblevmware Ansible 错误：无法匹配提供的主机模式，忽略：开关（跳过没有匹配的主机） ansible Ansible连接到本地Unix TTY套接字 ansible 使用Ansible编辑IP ansible Ansible 无法在route53模块内访问ACME质询DNS数据 ansible Ansible 使用配置在文件夹中组织剧本（无bash） ansible Ansible:使用华为模块ce_配置时出错 ansible

[pyspark]相关推荐 Pyspark与Jupyter的集成 Pyspark Pyspark数据帧类型错误：应为字符串或缓冲区 Pyspark Pyspark-在groupByKey之后，根据键计算不同的值？ Pyspark Pyspark 过滤掉hivecontext.sql中的空字符串和空字符串 Pyspark Pyspark Pypark连接表 Pyspark Pyspark StructType不能接受对象？ Pyspark Pyspark 文本挖掘：使用Word2Vec对有毒评论的错误预测 Pyspark 聚合pyspark中的一个热编码特征 Pyspark 如何在PySpark中合并多个RDD Pyspark 如何在不使用StandardScaler的情况下标准化PySpark中的列？ Pyspark 如何在pyspark中获得groupBy之后每次计数的总数百分比？ Pyspark 动态传递查询字符串以在PySpark数据帧方法selectExpr（）中选择列 Pyspark orderBy如何影响Pyspark数据框架中的Window.partitionBy？ Pyspark Pyspark java.net.SocketTimeoutException:接受超时 Pyspark PySpark：一段时间后并行度降低了？ Pyspark pyspark数据管道使用中间结果 Pyspark 字符“^在pyspark 2.0中按箭头键时，按[A”；“；^[B”；“；^[C”；“；^[D”；] Pyspark 在不平衡数据集上设置pyspark（ml）中的多类随机森林和gbt模型的最佳阈值 Pyspark pyspark中有没有一种方法可以将文件从远程位置快速复制到本地 Pyspark Pyspark 如何将文本文件从Databricks笔记本上传到FTP Pyspark 计算PySparkSQL联接中每个不同值在列中出现的次数 Pyspark Pyspark 如何将名称拆分为不同的列 Pyspark Pyspark-是否为每个键添加缺少的值？ Pyspark Pyspark-udf中的更新列表 Pyspark Pyspark-如何复制/复制行？ Pyspark Pyspark 在功能和时间上聚合数据 Pyspark Pyspark 从rdd中选择元素，其中（x，y）、（y，x）在rdd中存在 Pyspark Pyspark Spark SQL在将数据帧保存为表时指定编码 Pyspark Character Encoding Pyspark-基于列表或词汇表创建列 Pyspark 计算Pyspark数据帧中的运行总数，并在出现情况时中断循环 Pyspark Tags Vaadin Pdf Enums Google Compute Engine Configuration Knockout.js Sublimetext2 Corda Directx Io Entity Framework Core Struts2 Cryptography Calendar Java Me Scikit Learn Dependencies Gnuplot Youtube Asp Classic Azure Service Fabric Qt4 Dialogflow Es Gruntjs Zend Framework Extjs4 Flutter Random Weblogic Colors Ibm Midrange Xpages Docusignapi Arangodb Ada Video Streaming Sencha Touch 2 Lua Https Mips Polymer Python 3.x Scroll Google App Maker Xamarin Visual C++ Firebase Cluster Computing Struct Cmake Lotus Notes Inheritance Debian Dictionary Windows Mobile Amazon Redshift Oracle10g Jmeter Vagrant Continuous Integration Drupal 6 Inno Setup Flask Glsl Parsing Machine Learning Adobe Camera Terraform Serialization Scripting Primefaces Amp Html Design Patterns Xcode Yocto Web Crawler Llvm Air Julia Robotframework Pandas Ssas Sorting Xmpp Artifactory Pycharm Zend Framework2 Cmd Operating System Akka Azure Functions Grails Erlang Common Lisp Timer Dns Windows 10 Navigation Version Control Omnet++ Batch File .htaccess Mapbox Netty Coldfusion Nsis Jquery Algorithm Ruby On Rails 3 Itext Build Symfony1 Fullcalendar Visual Studio 2017 Spring Integration Backbone.js Asp.net Windows Services Matplotlib Gcc Odata Visual Studio 2012 Internationalization .net 4.0 Cloud Data Structures Google Cloud Storage Coding Style Windows File Io Swing Vb6 Localization Svn Entity Framework 4 Encoding Ios7 Coffeescript Ms Word Botframework Rabbitmq Ffmpeg Css Join Certificate Webview Phpstorm Azure Cosmosdb Visual Studio 2010 Codeigniter Hash User Interface Blockchain Highcharts Next.js Animation .net Core F# Git Fortran Vector Websphere Map Linkedin Dynamic Csv Error Handling Sequelize.js Jboss Jersey Discord.js Openerp Sails.js Joomla Sitecore Ibm Mq Eclipse Plugin Command Line For Loop Doxygen Interface C++ Sml Node.js Postman Nhibernate Django Cron Virtualbox Monitoring Sql File Drupal Silverstripe System Verilog Recursion Outlook Scala Xamarin.android Wso2

Copyright © 2024. All Rights Reserved by - Fatal编程技术网