Python 如何为spark中的多个数据帧生成相同的UUID？_Python_Pyspark_Azure Databricks - Fatal编程技术网

Python 如何为spark中的多个数据帧生成相同的UUID？

python pyspark

Python 如何为spark中的多个数据帧生成相同的UUID？,python,pyspark,azure-databricks,Python,Pyspark,Azure Databricks,我有一个从文件中读取的df import uuid df = spark.read.csv(path, sep="|", header=True) 然后我给它一个UUID列 uuidUdf= udf(lambda : str(uuid.uuid4()),StringType()) df = df.withColumn("UUID",uuidUdf()) 现在我创建一个视图 view = df.createOrReplaceTempView("

我有一个从文件中读取的df

import uuid

df = spark.read.csv(path, sep="|", header=True)

然后我给它一个UUID列

uuidUdf= udf(lambda : str(uuid.uuid4()),StringType())
df = df.withColumn("UUID",uuidUdf())

现在我创建一个视图

view = df.createOrReplaceTempView("view")

现在我创建了两个从视图中获取数据的新数据帧，这两个数据帧都将使用原始的UUID列

df2 = spark.sql("select UUID from view")
df3 = spark.sql("select UUID from view")

所有3个数据帧都将有不同的UUID，有没有办法使它们在每个数据帧中保持相同？

Spark使用一种延迟求值机制，在调用

show

或其他操作时调用计算。这意味着每次调用操作时，都会重新计算

uuid

。为了避免这种情况在调用

createOrReplaceTempView

之前，您需要

缓存df
，以下是您应该做的
import uuid

df = spark.read.csv(path, sep="|", header=True)
uuidUdf= udf(lambda : str(uuid.uuid4()),StringType())
df = df.withColumn("UUID",uuidUdf())

df.cache()

view = df.createOrReplaceTempView("view")

df2 = spark.sql("select UUID from view")
df3 = spark.sql("select UUID from view")


取决于数据量。缓存不必要会有所帮助。为什么？如果我有大量数据会发生什么？@JS noob可能他的意思是，当数据太大而无法保存在内存中时，cache
将无济于事。但是我相信，如果没有实验，如果缓存
的配置设置为内存和磁盘
，Spark将在内存和磁盘中缓存数据。因此，缓存数据可能仍然有用。




[pyspark]相关文章推荐



                                                        
Pyspark 运行apachesystemml
pyspark 
pyspark ImageSchema.toNDArray引发AttributeError:'；非类型'；对象没有属性'_jvm'；
pyspark 
pyspark sql:AttributeError:“非类型”对象没有属性“联接”
def主输入、输出：
sdf=spark.read.csvinput，schema=observation\u schema
sdf.RegisterEmptable'filtertable'
结果=spark.sql
在qflag为空的filtertable中选择*
显示
temp_max=spark.sql从filtertable中选择日期、站点、值，其中观测值='TMAX'。显示
temp_min=spark.sq
pyspark 
Pyspark 从Databricks笔记本连接到Azure SQL数据库
pysparkazure-sql-database 
Pyspark 我对具有多个匹配项的正则表达式提取有问题
pyspark 
无法在pyspark中使用.show（）显示数据帧
pyspark 
使用pyspark洗牌随机选择的列
pyspark 
Pyspark 获取上个月的值
pyspark 
Pyspark中转置数据帧的通用解决方案
pyspark 
Pyspark 不使用AAD应用程序的Pyto连接器
pyspark 
使用pySpark将hdfs中的零件文件读取到数据帧中
pyspark 
pyspark：自动填充隐式缺失值
pyspark 
Pyspark 通过使用凭证传递的Azure Datatricks中的python脚本查找Azure Datalake中文件/文件夹的上次修改时间戳
pyspark 
Pyspark 从日期获取周开始日期和周结束日期
pyspark 
Pyspark-设置本地核心和应用程序名称，并使用UTC作为时区
pyspark 
Pyspark 如何在SQL语句中将spark数据框用作表
pyspark 
                                       





随机文章推荐



                                                        
Continuous integration 从另一个Hudson作业引用文件
continuous-integration 
Continuous integration 自动蜘蛛测试
continuous-integrationautomated-testsweb-crawler 
Continuous integration 如何将Purify集成到Hudson CI中？
continuous-integration 
Continuous integration TeamCity和NAnt：如何发送构建成功/失败的电子邮件？
continuous-integrationteamcity 
Continuous integration 如何在Quickbuild中生成每个提交的修订？
continuous-integration 
Continuous integration 我可以将Jenkins的SCM轮询间隔随机化吗
continuous-integrationjenkins 
Continuous integration 动态变化软件的持续集成
continuous-integration 
Continuous integration 巡航控制构建策略
continuous-integration 
Continuous integration 无法从Github将私有项目同步到Travis CI
continuous-integration 
Continuous integration 在VSTS项目生成中运行代码分析器
continuous-integrationazure-devops 
Continuous integration VSTS在生成后触发释放和部署
continuous-integrationazure-devops 
Continuous integration 我们可以从Azure数据工厂更新或删除VSTS Git配置吗？
continuous-integrationazure-devopsazure-data-factory 
Continuous integration 解决Git lab Runner上已存在的远程源错误
continuous-integrationgitlab 
Continuous integration 如何成功地将API文档集成到构建过程中
continuous-integrationswaggerdocumentation 
Continuous integration 使用AWS代码构建/部署/管道为AWS CDK应用程序设置CI/CD
continuous-integration 
Continuous integration Gitlab CI/CD只需部署一次阶段
continuous-integrationgitlab 
Continuous integration 如何使用GitLab作为本地构建和部署工具？
continuous-integrationgitlab


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python don'；不显示在面板上
									Python
							 									Qt
							 
Python ST2-添加用于自动完成的自定义目录（Submiterope）
									Python
							 									Sublimetext2
							 
用python发布到Facebook墙
									Python
							 									Facebook Graph Api
							 
Python 通过合并一些行来修改数组
									Python
							 									Arrays
							 
Python 如何在字典中添加文件？
									Python
							 									File Io
							 
Python包路径排序的设计原因是什么？
									Python
							 									Path
							 									Pip
							 
Python 当系统编码与文件编码不匹配时，如何查找系统编码？
									Python
							 									Macos
							 									Encoding
							 
Python搜索和替换不起作用
									Python
							 									String
							 									Replace
							 
Python 以百分比形式查找两个文件大小之间的比率
									Python
							 
Python 用辛微分几何求球面的黎曼曲率张量
									Python
							 
Python:With Int超类获取TypeError:Int（）可以'；t使用显式基转换非字符串
									Python
							 
Python 错误1045（28000）：拒绝用户访问'；根'@'；本地主机'；（使用密码：是）在Windows上
									Python
							 									Mysql
							 									Cmd
							 
Python 在csv中生成平均值和标准偏差
									Python
							 									Pandas
							 									Numpy
							 
如何在Python中提取zip文件中tar.gz文件的成员
									Python
							 
Python ValueError:无法将字符串转换为浮点-没有位置指示
									Python
							 									Csv
							 
在Python（Windows）中与子进程的连续交互
									Python
							 									Windows
							 									Powershell
							 
Python 为什么matplotlib不显示特定的数学文本
									Python
							 									Matplotlib
							 									Math
							 
Python 如何通过更改主列对表进行子类化？
									Python
							 									Testing
							 									Sqlalchemy
							 
Python Fasttext自动prameter调整训练集
									Python
							 
Python 如何将对象数组的数据类型更改为字符串
									Python
							 									Pandas
							 									Numpy
							 
Python 为什么当我更改复制词典的元素时，原始词典的元素会更改？
									Python
							 									Numpy
							 									Dictionary
							 
使用python在deck.gl中设置TripsLayer动画
									Python
							 									Gis
							 
如何在Python中找到那些具有单个值的列的列号？
									Python
							 									Python 3.x
							 
Python 将xls转换为pdf
									Python
							 									Excel
							 									Email
							 
Python 乒乓球与球拍的碰撞问题
									Python
							 									Python 3.x
							 									Tkinter
							 
Python 为什么我能'；t在2个时间点上迭代？
									Python
							 									Datetime
							 
Python 如何为数据帧中与列表匹配的特定行赋值？
									Python
							 									Pandas
							 									Dataframe
							 
Python 计算具有公共id（而不是列）的多行中的平均值或通过切片计算平均值时出现问题
									Python
							 									Pandas
							 									Dataframe
							 
Python 如何使用；不是"；带有“的属性”；“类名”；在Xpath中？
									Python
							 									Xpath
							 
Try/Exception在Python中提供多个结果
									Python
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Windows Installer
Flask
Python
Sql Server 2005
Jquery Plugins
Url
Log4net
Sharepoint
Grails
Activemq
Gridview
Bootstrap 4
Elixir
Apache
EmptyTag
Bison
Javascript
Tree
Go
Web Applications
Atom Editor
Ldap
Redis
Deep Learning
Reference
Ios7
Synchronization
Kubernetes
Gstreamer
Glsl
Programming Languages
Winforms
Stata
Asp.net Mvc 4
Vim
Automation
Html5 Canvas
Computer Science
Stripe Payments
Internationalization
Object
Jira
Streaming
Ftp
Variables
Shopify
Docusignapi
Responsive Design
Google Apps Script
Jmeter
Kentico
Listview
Gps
Android
Powershell
Prestashop
Spring Mvc
Hazelcast
File Upload
Stm32
Fortran
Twitter Bootstrap 3
Parameters
Colors
Workflow
Charts
Here Api
Hibernate
Weblogic
Sas
Jvm
Markdown
Hive
Asterisk
Apache2
Import
Puppet
Report
Sencha Touch 2
Bluetooth
Iframe
Version Control
Blockchain
Google Maps Api 3
Zurb Foundation
Javafx
Git
Powerbi
Keras
Dojo
Types
Google Colaboratory
Octave
Jetty
Web Crawler
Google Chrome
Xslt
Boost
Android Emulator
Kernel
Orm
Mediawiki
Notepad++
Three.js
Machine Learning
Sqlite
Statistics
Interface
Unicode
Tabs
Ravendb
Rxjs
Mdx
Blazor
Plot
Air
Xquery
Active Directory
Firefox
Gitlab
Oop
Highcharts
Winapi
Command Line
Email
Orchardcms
Tkinter
Oracle10g
Windows Services
Reflection
Yii2
Com
Maven 2
Ios6
Joomla
Openerp
Map
Yii
Ajax
Functional Programming
Google App Maker
Json
Wolfram Mathematica
Ms Word
Ruby On Rails
Opencl
Parallel Processing
Sails.js
Notifications
Io
Forms
Identityserver4
Perforce
Doctrine Orm
Playframework
Lambda
Crystal Reports
Binding
Docker
Exception
Nativescript
For Loop
C++
Certificate
Content Management System
Resharper
Layout
Drop Down Menu
Generics
Cucumber
Websphere
Stanford Nlp
Jestjs
Sed
Scrapy
Serialization
Salesforce
Raspberry Pi
Google Bigquery
Karate
Spring Integration
Dialogflow Es
Wicket
Sms
Apache Flink
Apache Spark
Https
Swiftui
Jboss
Llvm
Typescript
Xaml
Reactjs
Sql
Google Visualization
Marklogic
Dynamic
Server
Netsuite
Tcp
Ssl


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网