Pyspark 关系化json深层嵌套数组_Pyspark_Aws Glue - Fatal编程技术网

Pyspark 关系化json深层嵌套数组

pyspark

Pyspark 关系化json深层嵌套数组,pyspark,aws-glue,Pyspark,Aws Glue,我有下面的目录，想用AWS胶水把它弄平 | accountId | resourceId | items | |-----------|------------|-----------------------------------------------------------------| | 1 | r1 | {application:{com

我有下面的目录，想用AWS胶水把它弄平

| accountId | resourceId | items                                                           |
|-----------|------------|-----------------------------------------------------------------|
| 1         | r1         | {application:{component:[{name: "tool", version: "1.0"}, {name: "app", version: "1.0"}]}} |
| 1         | r2         | {application:{component:[{name: "tool", version: "2.0"}, {name: "app", version: "2.0"}]}} |
| 2         | r3         | {application:{component:[{name: "tool", version: "3.0"}, {name: "app", version: "3.0"}]}} |

这是我的模式

root
 |-- accountId: 
 |-- resourceId: 
 |-- PeriodId: 
 |-- items: 
 |    |-- application: 
 |    |    |-- component: array

我想将其展平为以下内容：

| accountId | resourceId | name | version |
|-----------|------------|------|---------|
| 1         | r1         | tool | 1.0     |
| 1         | r1         | app  | 1.0     |
| 1         | r2         | tool | 2.0     |
| 1         | r2         | app  | 2.0     |
| 2         | r3         | tool | 3.0     |
| 2         | r3         | app  | 3.0     |

根据我从您的架构和数据中了解到的情况，您的架构是一个深度嵌套的结构，因此您可以对

items.application.component

进行

分解，然后从中选择您的名称
和版本
列
此链接可能有助于您了解：
from pyspark.sql import functions as F
df.withColumn("items", F.explode(F.col("items.application.component")))\
.select("accountId","resourceId","items.name","items.version").show()


    +---------+----------+----+-------+
    |accountId|resourceId|name|version|
    +---------+----------+----+-------+
    |        1|        r1|tool|    1.0|
    |        1|        r1| app|    1.0|
    |        1|        r2|tool|    2.0|
    |        1|        r2| app|    2.0|
    |        2|        r3|tool|    3.0|
    |        2|        r3| app|    3.0|
    +---------+----------+----+-------+




[mongoose]相关文章推荐



                                                        
在mongoose中，如何选择数组属性中的字段
mongoose 
Mongoose 猫鼬承诺争论传递问题
mongoose 
Mongoose 使用MEAN.js更新文档和子文档
mongoose 
最新版本的mongoose验证器（1.3或1.3.2）出现语法错误
mongoose 
Mongoose 连接到Azure CosmosDB
mongooseazure-cosmosdb 
在mongoose find（）查询中传递文本
mongoose 
Mongoose结果项目计数
mongoose 
Mongoose 将ID数组添加到GraphQL变体
mongoosegraphql 
Mongoose 将错误从服务器发送到客户端-fullstack js
mongoose 
Mongoose 猫鼬地图的地图，不是为我工作
mongoose 
如何使用graphql对mongoose查询进行验证
mongoosegraphql 
Mongoose验证：是否可以在验证期间排除字段，然后恢复它们？
mongoose 
Mongoose Jest，带lean（）的模拟猫鼬模型
mongoosejestjs 
                                       





随机文章推荐



                                                        
Browser 缩放存储在S3的图像
browserimage-processingamazon-s3 
Browser 从哪个浏览器开始？IE、Firefox、Chrome、Safari？
browser 
Browser 在XULRunner中更改浏览器的内容
browser 
Browser 如何在浏览器窗口中单击鼠标右键添加自定义上下文菜单项？
browser 
Browser struts2 dojo日期选择器在Internet explorer中工作不正常
browser 
Browser 我可以在cookie中存储多少数据
browsercookies 
Browser 获取要在所有浏览器上显示的UTF-8文本文件
browserutf-8apache2 
webbrowser控件不支持；渲染“；html
browser 
Browser 可以在浏览器中显示的Unicode错误符号
browserunicodecharacter-encodinggithub 
Browser 有没有办法显示浏览器'；由应用程序设置的窗口属性？
browsergoogle-chrome-devtools 
Browser 用于连接多个sshd的浏览器应用程序
browserarchitecturessh 
Browser Android浏览器无法正确处理跨域ajax请求
browserjavascript 
Browser 隐藏的动画会导致重新绘制吗？
browser 
Browser 我想知道，当他/她试图从我的应用程序下载文件时，客户端完成了文件下载
browserdownload 
Browser 是否可以在Edge web浏览器中运行Chrome扩展？
browserwebgoogle-chrome-extension 
Browser Akamai是否在超时时重新提交
browser 
Browser 有没有办法将NetBeans设置为将Chrome Incognito作为默认浏览器运行？
browser 
Browser 是否有方法在控制台中输出chrome版本？
browser 
Browser 理解YouTube的困惑'；s循环参数
browseryoutube 
Browser 检查网络活动时禁用JavaScript
browser


                                        

                                        
                                        


                                                
                                                        [pyspark]相关推荐
                                                        
PySpark如何在SparkSql和数据帧中使用pickle
									Pyspark
							 
Pyspark列的十分位数或其他分位数秩
									Pyspark
							 
updatestatebykey-Pyspark-Spark流媒体
									Pyspark
							 
Pyspark 统计SPARKSQL中重复的行数
									Pyspark
							 
Pyspark |使用值列表从键转换RDD>；具有键列表的值
									Pyspark
							 
Pyspark 如何处理多个关键字值，但按第一个关键字减少？
									Pyspark
							 
Pyspark 超过阈值后重置的累积总和
									Pyspark
							 
从pyspark中的所有列名中删除空格
									Pyspark
							 
从pyspark dataframe中删除具有相同值但位于不同列中的重复行
									Pyspark
							 
将列表转换为pyspark中的dataframe列
									Pyspark
							 
py4j.Py4JException:将类方法传递到pyspark中的映射时，方法_getstate___（[]）不存在
									Pyspark
							 
Pyspark：如何设置内存和内核的初始设置？
									Pyspark
							 
Pyspark 如何推断现有Spark数据帧的数据类型？
									Pyspark
							 
Pyspark 如何从CSV文件中清除数据
									Pyspark
							 
使用pyspark读取多个csv文件
									Pyspark
							 
pyspark数据帧上的复杂逻辑，包括前一行现有值以及动态生成的前一行值
									Pyspark
							 
Pyspark 如何在新的databricks connect中正确使用sql/hive变量
									Pyspark
							 
Pyspark 机器学习目标列
									Pyspark
							 
有没有办法在PySpark中进行二项回归？
									Pyspark
							 									Statistics
							 
pyspark如何检查给定的spark数据帧是否已使用inferSchema=True创建
									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Ruby
Robotframework
Django Models
Doctrine Orm
Ios
Unix
Amazon S3
Loops
Synchronization
Reporting Services
Editor
Silverlight 4.0
Asynchronous
Razor
Mediawiki
Gulp
Url
Twitter
Tinymce
Youtube Api
Batch File
Pip
Streaming
Generics
Processing
Postman
Bison
Drupal 6
Network Programming
Macos
Hibernate
Graphviz
Amazon Web Services
Ssis
Tabs
Wix
Subsonic
Math
Ubuntu
Airflow
Optimization
Pytorch
Cocos2d X
Snowflake Cloud Data Platform
Sqlite
Activemq
Django Rest Framework
Google Cloud Platform
Windows Phone 7
Time Complexity
Assembly
Cloud Foundry
Three.js
Awk
Node.js
Vector
Odata
Ssh
Entity Framework
Jsf
Vue.js
Akka
Hybris
Cryptography
Facebook Graph Api
Shiny
Primefaces
Ionic2
Tkinter
Smalltalk
Swift2
Plsql
Puppet
Ruby On Rails
Deployment
Ruby On Rails 4
Dynamics Crm 2011
Polymer
Spring Security
Android Emulator
Stm32
Json
Tcl
Ruby On Rails 3
Algorithm
Struts2
Localization
Joomla
Outlook
Windows
Mule
Parameters
Autocomplete
Sencha Touch
Hadoop
Telerik
Ibm Mobilefirst
Coq
Proxy
Listview
Dns
Webgl
Omnet++
Apache Zookeeper
Eclipse Rcp
Firefox Addon
Azure Ad B2c
C++
Language Agnostic
Xpath
Typo3
Tfs
Debian
Open Source
Cmake
Dotnetnuke
Recursion
Uitableview
Opengl Es
Xcode4
Cocos2d Iphone
Netlogo
Installation
Cookies
Terraform
Pyspark
Scrapy
Openlayers
Asp Classic
Ip
Search
Prestashop
Hazelcast
Github
Google Sheets
Rspec
Ecmascript 6
Merge
Pagination
Push Notification
Ansible
Electron
Laravel 5
Log4j
Google Apps Script
Apache Camel
Sass
Ide
Jersey
Angular
Smtp
Qt4
Tree
Kibana
Flash
Forms
Symfony1
C# 4.0
Plugins
Virtualbox
Windows Phone 8.1
Log4net
Certificate
Asp.net Mvc
Keycloak
Windows Runtime
List
Kotlin
Internationalization
Geolocation
Influxdb
Ocaml
Windows 7
Variables
Google Maps Api 3
Discord.py
Dependency Injection
Jwt
Graphics
Couchdb
Php
Csv
Filter
Tcp
Speech Recognition
Fortran
Jsp
Ruby On Rails 3.2
Bots
Teradata
Curl
Apache Pig
Single Sign On
Tsql
Drools
Shell
Apache Kafka
Google Calendar Api
Reference
Powerbi
Performance


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网