Python PySpark数据帧示例说明_Python_Pyspark_Pyspark Sql_Pyspark Dataframes - Fatal编程技术网

Python PySpark数据帧示例说明

python pyspark

Python PySpark数据帧示例说明,python,pyspark,pyspark-sql,pyspark-dataframes,Python,Pyspark,Pyspark Sql,Pyspark Dataframes,我有一个有500万行的PySpark数据帧，希望得到随机选择的子集的描述当我生成相同分数的两个不同样本时，我得到的结果是相同的样本1=df.样本（分数=0.03，种子=无）样本2=df.样本（分数=0.03，种子=无）两个不同数据帧的描述怎么可能相同 SparkContext（）。版本='2.4.4' 我最初的猜测是种子是相同的如果你不关心再现性，那么每次取样都使用一个随机种子。如果您想要再现性，请为每个采样使用一个恒定但不同的种子关于平等性，Spark比较数据帧的方式可能在幕后发

我有一个有500万行的PySpark数据帧，希望得到随机选择的子集的描述

当我生成相同分数的两个不同样本时，我得到的结果是相同的

样本1=df.样本（分数=0.03，种子=无）

样本2=df.样本（分数=0.03，种子=无）

两个不同数据帧的描述怎么可能相同

SparkContext（）。版本='2.4.4'

我最初的猜测是

种子是相同的
如果你不关心再现性，那么每次取样都使用一个随机种子。
如果您想要再现性，请为每个采样使用一个恒定但不同的种子
关于平等性，Spark比较数据帧的方式可能在幕后发生了一些事情
运行以下操作时会发生什么情况：
sample_1.except(sample_2).isEmpty

在每次调用时更改seed如何？我已经尝试过了，但结果是相同的。只是测试了相同的结果，每次采样都会得到不同的结果。事实上，我使用相同的代码得到了不同的描述（即使用seed=None
），感谢您的回复。现在它起作用了。但我仍然不确定这是否与seed有关，因为seed=None与random seed相同。
sample_2.describe().show(100)

+-------+--------------------+
|summary|            row_name|
+-------+--------------------+
|  count|              160933|
|   mean|2.921313376194685...|
| stddev| 3.50815577432219E13|
|    min|            10111444|
|    max|            99955723|
+-------+--------------------+

sample_1 == sample_2
False

sample_1.except(sample_2).isEmpty




[pyspark]相关文章推荐



                                                        
Pyspark 使用python将空列添加到Spark中的dataframe
pyspark 
pyspark决策树中的样本权重
pyspark 
Pyspark-数据帧上的深度优先搜索
pyspark 
如何制作PySpark行对象的变异副本？
pyspark 
Pyspark窗口函数
pyspark 
pyspark/dataframe-创建嵌套结构
pyspark 
在Pyspark df中将字典键添加为列名，将字典值添加为该列的常量值
pyspark 
Pyspark 在联接时在表之间添加克隆
pyspark 
子字符串函数返回列类型而不是值。有没有办法从pyspark中的列类型中获取值
pyspark 
Pyspark 关闭通过django应用程序中的芹菜任务启动的spark上下文
pysparkdjango-rest-framework 
如何在pyspark作业（笔记本除外）中使用dbutils命令
pyspark 
如何使用PySpark（databricks）在本地加速下载CSV文件？
pyspark 
Pyspark 在决策树分类器上拟合RDD数据时出错
pyspark 
Pyspark 读取HDFS中存储的模型（.pkl和.scl）文件
pyspark 
Pyspark 无法从EMR笔记本访问python模块
pysparkjupyter-notebook 
如何创建行号为inf pyspark的列
pyspark 
如何更改pyspark中的列值（模式）
pyspark 
使用PySpark和不使用window对来自Kafka的流数据执行滚动平均
pysparkapache-kafka 
我可以问一个pyspark调用的简单例子吗？每个工作节点上都有一个库？
pyspark 
Pyspark 通过访问行中的嵌套元素筛选出行
pyspark 
                                       





随机文章推荐



                                                        
Azure sql database 将视图从本地Database同步到SQL Azure数据库表
azure-sql-database 
Azure sql database 如何将Azure SQL数据库的联机状态更改为脱机
azure-sql-database 
Azure sql database Azure Analysis Services是否支持服务主体登录到SQL Azure
azure-sql-database 
Azure sql database 使用密钥库访问数据工厂中的SQL DB托管标识
azure-sql-databaseazure-data-factory


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 谷歌AppEngine启动时间
									Python
							 									Google App Engine
							 
在python 2.6中创建字典词典
									Python
							 									Python 2.7
							 
Python 我收到此错误“TypeError:无法将'int'对象隐式转换为str”
									Python
							 									Python 3.x
							 
Python subprocess.call（）删除文件
									Python
							 
对多个python模块使用相同的句柄
									Python
							 
Python django从模型字段获取值
									Python
							 									Django
							 									Model
							 
Python 斐波那契函数中的类型错误
									Python
							 
Python 芹菜几个小时后就死了
									Python
							 
Python 使用pymssql从SQL server读取varchar的性能
									Python
							 									Sql Server
							 									Utf 8
							 
Python 从弹出窗口中删除PHP
									Python
							 									Html
							 									Web Scraping
							 
Python 词典中的词典
									Python
							 									Dictionary
							 
Python 如何解决此错误：TypeError:无法将“int”对象隐式转换为str
									Python
							 
Python 放弃对EditLabel wxtreectrl的更改
									Python
							 									Wxpython
							 
Python Twitter和单行JSON输出
									Python
							 									Json
							 									Twitter
							 
Python 使用多列键将DataFrame转换为字典
									Python
							 									Pandas
							 
如何使用Python在类标签的基础上隔离数据
									Python
							 									Pandas
							 
Revit Python宏和RevitPythonShell模块或加载的包
									Python
							 
Python 不使用内置类型转换在str和int之间转换
注意：您不能使用内置的类型转换：请自己编写代码。
									Python
							 									String
							 
Python 属性错误：'；模块'；对象没有属性'；createLBPHFaceRecognizer'；
									Python
							 									Macos
							 									Opencv
							 
Python 我想使用比较操作返回一个大于5小于20的值，但是当运行时，“5和sloperater
									Python
							 
Python 如何为txt文件中的每一行执行命令
									Python
							 									Linux
							 
Python &引用；对象没有“dict”，因此您可以’；t为对象类的实例指定任意属性。”；
									Python
							 									Python 3.x
							 
在dict python中将多个值映射为一个值
									Python
							 									Postgresql
							 									Python 3.x
							 									Google Bigquery
							 
Python ValueError:列的长度必须与键的长度相同
									Python
							 									Pandas
							 
使用python3生成xml
									Python
							 									Python 3.x
							 
Python 在数据帧中转换数据的问题
									Python
							 									Dataframe
							 
Python 如何使用BeautifulSoup查找html类名？
									Python
							 									Web Scraping
							 
理解Python中的访问器和变异器
									Python
							 
为期权定价创建python类时出错
									Python
							 									Class
							 
Python 在pytorch中堆叠二进制掩码帧？
									Python
							 									Pytorch
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Streaming
Cron
Sugarcrm
Php
Regex
Dependency Injection
Opengl
Bazel
Google Maps
Amazon Dynamodb
Webview
Responsive Design
Devexpress
Visual Studio 2010
Couchdb
Twilio
Struts2
Webrtc
Isabelle
Visual Studio 2017
Python 3.x
Openlayers
.net
Virtual Machine
Embedded
Mips
Yaml
Geolocation
Xcode
Language Agnostic
Gps
Mod Rewrite
Ms Office
Ibm Midrange
Mono
Javafx
Magento2
Programming Languages
Sencha Touch 2
Model
Nativescript
Material Ui
Swift2
Visual Studio 2013
Log4j
Pandas
Cocoa
Clojure
Opencv
Map
Netlogo
Symfony1
Compression
Xmpp
Outlook
Asp.net Core
Seo
Jenkins
Text
Aem
Nunit
Parallel Processing
Exchange Server
Mapreduce
Reference
Angular6
Synchronization
Youtube Api
Eclipse Plugin
Openstack
Google App Maker
Enums
Pdf
Clang
Openssl
Wcf
Filter
Triggers
Ecmascript 6
Docker Compose
Apache Zookeeper
Vb.net
Nginx
Workflow
Telegram
Cocos2d X
Multithreading
Utf 8
Xampp
Sql
Influxdb
Wxpython
Networking
Dart
Google Maps Api 3
Orm
File
Google Cloud Platform
Merge
Playframework 2.0
Xamarin.android
Internet Explorer 8
Redux
Encoding
Security
Windows Services
Wolfram Mathematica
Elixir
Adobe
Checkbox
Sed
Eclipse
Atom Editor
Blackberry
Jasmine
Maps
Dialogflow Es
Visual Studio 2015
Vim
X86
Laravel 5
Unit Testing
Protocol Buffers
Service
Frameworks
Spring Boot
Npm
Node.js
Openid
Coldfusion
Gruntjs
Matrix
Big O
Logic
Pytorch
Aframe
Drupal
Dotnetnuke
Jetty
Selenium
Install4j
Marklogic
For Loop
Orientdb
Sqlite
Login
Google Calendar Api
Sass
Sharepoint 2010
Testing
Requirejs
User Interface
Sms
Pyspark
Junit
Tkinter
Project Management
Julia
Automated Tests
Loopbackjs
Typo3
Vuejs2
Django Models
Polymer
Google Drive Api
Camera
Linux
Button
Tomcat
Cryptography
Windows Runtime
Tridion
Sap
Ckeditor
Moodle
Apache
Timer
Amazon S3
If Statement
Amazon Cloudformation
Mapbox
Certificate
Exception Handling
Openerp
Leaflet
Apache2
Scheme
C# 4.0
Scripting
Ldap
Recursion
Facebook Graph Api
Perl
Jboss
Class
Entity Framework
Azure Functions
Ffmpeg
Prometheus
Zsh
Oop


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网