PySpark Dataframe中的重复行基于另一列中的off值_Dataframe_Duplicates_Pyspark - Fatal编程技术网

PySpark Dataframe中的重复行基于另一列中的off值

dataframe pyspark

PySpark Dataframe中的重复行基于另一列中的off值,dataframe,duplicates,pyspark,Dataframe,Duplicates,Pyspark,我有一个如下所示的数据帧： ID NumRecords 123 2 456 1 789 3 我想创建一个新的数据帧，它连接两列并根据NumRecords中的值复制行所以输出应该是 ID_New 123-1 ID_New 123-2 ID_New 456-1 ID_New 789-1 ID_New 789-2 ID_New 789-3 我正在研究“explode”函数，但根据我看到的示例，它似乎只取了一个常量您可以使用udf from pyspark.sql.

我有一个如下所示的数据帧：

ID    NumRecords
123   2
456   1
789   3

我想创建一个新的数据帧，它连接两列并根据NumRecords中的值复制行

所以输出应该是

ID_New  123-1
ID_New  123-2
ID_New  456-1
ID_New  789-1
ID_New  789-2
ID_New  789-3

我正在研究“explode”函数，但根据我看到的示例，它似乎只取了一个常量

您可以使用udf

from pyspark.sql.functions import udf, explode, concat_ws
from pyspark.sql.types import *

range_ = udf(lambda x: [str(y) for y in range(1, x + 1)], ArrayType(StringType()))

df.withColumn("records", range_("NumRecords") \
  .withColumn("record", explode("records")) \
  .withColumn("ID_New", concat_ws("-", "id", "record"))

我有一个类似的问题，这段代码将根据NumRecords列中的值复制行：

from pyspark.sql import Row


def duplicate_function(row):
    data = []  # list of rows to return
    to_duplicate = float(row["NumRecords"])

    i = 0
    while i < to_duplicate:
        row_dict = row.asDict()  # convert a Spark Row object to a Python dictionary
        row_dict["SERIAL_NO"] = str(i)
        new_row = Row(**row_dict)  # create a Spark Row object based on a Python dictionary
        to_return.append(new_row)  # adds this Row to the list
        i += 1

    return data  # returns the final list


# create final dataset based on value in NumRecords column
df_flatmap = df_input.rdd.flatMap(duplicate_function).toDF(df_input.schema)

从pyspark.sql导入行
def复制_功能（世界其他地区）：
数据=[]#要返回的行列表
to_duplicate=浮动（行[“NumRecords”]）
i=0
当我

我在df.withColumn（“记录”，range（“NumRecords”）上得到了“tuple对象不可调用”




[json]相关文章推荐



                                                        
JSON中是否允许双重定义，如果允许，应如何解释？
json 
JSON.parse在IE8中导致运行时错误
jsoninternet-explorer-8 
Json 使用cal热图加载和可视化数据
jsond3.js 
Json mongoimport命令内存不足错误
jsonmongodb 
将circe中json对象的所有键从“下划线”转换为“驼峰大小写”
jsonscala 
使用XSLT将嵌入式JSON转换为XML
jsonxmlxslt 
Json chrome扩展通知
jsongoogle-chrome-extensiongoogle-chrome-devtools 
Typescript中的CSV到JSON
jsonfilecsvangulartypescript 
Json 我正试图得到一个；餐；来自GSA API的速率
jsonvb.net 
如何将表中编辑的旧值和新值保存到angular 2中的JSON
jsonangular 
如何使用终端下载部分s3 aws cli？这是一个1 TB的json/xml文件，我只需要100-200MB的顺序编号文件
jsonamazon-web-servicesamazon-s3 
Json 从Angular4中的[object]获取值
jsonangulartypescript 
使用powershell替换JSON中的布尔值
jsonpowershell 
如何为完美的部署编写now.json文件
jsondeployment 
Json 为什么HttpClient会取代\"；加上↵&引用；
jsonangular 
Forge Viewer如何与本地存储库（json文件）交互？
jsonautodesk-forge 
Gitlab CI Webhook-如何查看JSON负载
jsonvariables 
Json 如何使用从axios发送的数据更新订单？
jsonlaravel 
使用Kotlin解析Json
jsonkotlin 
Json 使用awk有条件地交换行
jsonawksed 
                                       





随机文章推荐



                                                        
Sequelize.js 使用sequelize cli运行多个命令
sequelize.js 
Sequelize.js 嵌套和续集
sequelize.js 
Sequelize.js Sequelize：如何在同步后将数据插入新创建的表中
sequelize.js 
Sequelize.js 管理模型别名
sequelize.js 
Sequelize.js:What'；sequelize.define和model.init之间的区别是什么？
sequelize.js


                                        

                                        
                                        


                                                
                                                        [dataframe]相关推荐
                                                        
Dataframe 我想为下面的数据集计算移动差异。
									Dataframe
							 
Dataframe PySpark：如何比较两个数据帧
									Dataframe
							 									Pyspark
							 
Dataframe 创建数据帧时输出不正确
									Dataframe
							 									Apache Kafka
							 
如何在pyspark中为Dataframe定义分区？
									Dataframe
							 									Pyspark
							 
Dataframe 查找数据帧列表之间的唯一变量相交
									Dataframe
							 									R
							 									List
							 
Dataframe Julia-错误：无法从主模块分配变量ImageAxis.data
									Dataframe
							 									Julia
							 
Dataframe 使用方括号对pyspark数据框中的列进行子集和/或重新排序是否安全？
									Dataframe
							 									Pyspark
							 
Dataframe 将pyspark数据帧写入具有相同列数和一个附加自动增量列的雪花表中
									Dataframe
							 									Pyspark
							 									Snowflake Cloud Data Platform
							 
Dataframe 根据条件在另一个数据帧中添加数据帧作为新列
									Dataframe
							 
Dataframe 转换数据帧
									Dataframe
							 
Dataframe Spark是否总是在动作发生时读取数据
									Dataframe
							 									Pyspark
							 
Dataframe 如何压缩2个数据帧并处理缺少的值？
									Dataframe
							 									F#
							 
PySpark:Dataframe，具有关系表的嵌套字段
									Dataframe
							 									Apache Spark
							 									Pyspark
							 
Dataframe 用pyspark对时间序列数据进行重采样
									Dataframe
							 									Apache Spark
							 									Pyspark
							 
Dataframe 如何选择周的日期
									Dataframe
							 									Apache Spark
							 									Pyspark
							 
Dataframe 使用Julia，如何读取多个CSV并合并列
我对朱丽亚很陌生，我认为自己是一个编程新手。我编写了一些MATLAB和Python代码
									Dataframe
							 									Julia
							 
过滤多个条件时，Julia dataframes方法错误不明确
									Dataframe
							 									Julia
							 
Dataframe spark中的Groupby/Partitionby
									Dataframe
							 									Apache Spark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Julia
Opengl
Visual Studio 2017
Dialogflow Es
Vim
Passwords
Arduino
Fiware
Phpstorm
Backbone.js
Safari
Wolfram Mathematica
Numpy
Directory
Seo
Jasper Reports
Calendar
Graph
Spring Batch
Dynamic
Couchdb
Salesforce
Kotlin
Permissions
Unit Testing
Mongoose
Aframe
Localization
Three.js
Replace
Hash
Function
Flask
Winforms
Moodle
Asp.net Mvc 5
Domain Driven Design
Angularjs
Architecture
Doctrine Orm
Data Structures
Module
Talend
Xpages
Security
Debugging
Stata
Cygwin
Documentation
Nuget
Sip
Iis 7
Plone
Actionscript
Time
Php
Laravel 4
Filter
Stm32
Asp.net Web Api
Cloud Foundry
Requirejs
Ldap
Testng
C++11
Ibm Mobilefirst
Ionic Framework
Sugarcrm
Awk
Octave
Ckeditor
Machine Learning
Qt4
Robotframework
Maps
R
Drupal
Clojure
Linq To Sql
View
.net 4.0
Websphere
Triggers
Arrays
Jboss
Virtual Machine
Yocto
Sharepoint
Windows Phone
Inno Setup
Keycloak
Video Streaming
Lua
C#
Cocos2d X
Camera
Amazon Web Services
Amazon Cloudformation
Ffmpeg
Python 2.7
Telegram
Centos
Oracle10g
Datatables
Sencha Touch 2
Itext
Model
Cordova
Grafana
Z3
Maven 2
Networking
Plugins
Charts
Checkbox
Ide
Processing
Hybris
Ssis
Asterisk
Xamarin.forms
Drop Down Menu
Canvas
Scroll
Oauth 2.0
Sas
Vaadin
Nestjs
Racket
Elm
Symfony1
Openlayers
Sql Server 2005
Download
Coq
Streaming
Asp.net Core
Jupyter Notebook
Node.js
Enums
Sequelize.js
Validation
Spotify
Twitter
Editor
Msbuild
Wpf
Hyperlink
Cobol
Biztalk
Jsf 2
Youtube Api
Netsuite
Interface
Bootstrap 4
Asp.net Core Mvc
Twilio
Arangodb
Cmd
Sitecore
Azure Data Factory
Asp Classic
Kdb
Openssl
Glassfish
Parameters
Forms
Internet Explorer
Windows Phone 8.1
Google Plus
Windows Phone 8
Join
Amazon Redshift
Shiny
Testing
Gps
Build
Winapi
Javafx 2
Ruby On Rails 3.2
Azure Active Directory
Ios5
Cocos2d Iphone
Loops
C
Docker
Command Line
Tabs
Pascal
Macos
Monitoring
Cron
Firefox Addon
Pentaho
Css
Filesystems
Rxjs
Iframe
Amp Html
Apache Storm
Amazon Dynamodb


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网