Python 熊猫：无法使用groupby计算大DF上的正确分位数_Python_Pandas - Fatal编程技术网

Python 熊猫：无法使用groupby计算大DF上的正确分位数

python pandas

Python 熊猫：无法使用groupby计算大DF上的正确分位数,python,pandas,Python,Pandas,在大型数据集上使用多列groupby时，我似乎无法重现分布的90%： data.loc[(data.x=='2008Q1')&(data.y==-90)]['var'].quantile(0.9) out: 1.030292 groupby_var = data.groupby(['x','y'])['var'].quantile(0.9).reset_index().rename(columns={'var':'u_var'}) groupby_var.loc[(groupby_var

在大型数据集上使用多列groupby时，我似乎无法重现分布的90%：

data.loc[(data.x=='2008Q1')&(data.y==-90)]['var'].quantile(0.9)
out: 1.030292
groupby_var = data.groupby(['x','y'])['var'].quantile(0.9).reset_index().rename(columns={'var':'u_var'})
groupby_var.loc[(groupby_var.x=='2008Q1')&(groupby_var.y==-90)]['u_var']
out: 0.187166

数据帧数据由6800万行组成。x是字符串/对象，y是浮点，var是浮点。我做错了什么？结果差得很远

更新：

问题与y的缺失值有关。可复制示例：

import pandas as pd
import random
import numpy as np

random.seed(0)
n=68*10**6
x_data = [str(i)+'Q'+str(j) for i in range(1950,2021) for j in range(1,5)]
y_data = [i for i in range(-90,91)]+[np.nan]
var_data = [random.randrange(0,10000)/10000 for i in range(n)]

data = pd.DataFrame(var_data,columns=['var'])
data['x'] = random.choices(x_data,k=n)
data['y'] = random.choices(y_data,k=n)
data['y'] = data['y'].astype(float)

data.loc[(data.x=='2008Q1')&(data.y==-90)]['var'].quantile(0.9)
out: 0.891
groupby_var = data.groupby(['x','y'])['var'].quantile(0.9).reset_index().rename(columns={'var':'u_var'})
groupby_var.loc[(groupby_var.x=='2008Q1')&(groupby_var.y==-90)]['u_var']
out: 0.8472

groupby_var_nan = data.loc[data['y'].notna()].groupby(['x','y'])['var'].quantile(0.9).reset_index().rename(columns={'var':'u_var'})
groupby_var_nan.loc[(groupby_var_nan.x=='2008Q1')&(groupby_var_nan.y==-90)]['u_var']
out: 0.891

问题：为什么

groupby\u var.loc[（groupby\u var.x='2008Q1'）和（groupby\u var.y=-90）]的结果与data.loc[（data.x='2008Q1'）和（data.y=-90）]分位数（0.9
和groupby\u var\u-nan loc和groupby\u var.loc的结果不同
这是预期的行为吗？
这不是某种错误吗




[pandas]相关文章推荐



                                                        
Pandas 熊猫不规则时间序列的滚动求和？
pandas 
Pandas 熊猫名称错误：名称'；合并'；没有定义
pandas 
Pandas 基于分组依据和逻辑筛选创建新列
pandaslambda 
将文本数据存储在pandas框架中，如何使用sklearn实现简单分类
pandasscikit-learn 
pandas read_csv将对象转换为浮点
pandas 
Pandas 数据帧中存在NaN时使用astype时出错
pandas 
分类数据帧上的pandas.concat占用太多内存
pandas 
Pandas ImportError:缺少Conda环境中必需的依赖项['；numpy'；]
pandasnumpyanaconda 
Pandas 用增量编号绑定重复ID
pandasdataframepyspark 
Pandas python中是否有类似SQL的行号替代方案？
pandas 
Pandas Python：如何合并两个值不唯一的数据帧
pandasmerge 
Pandas 如果数据帧大于0，则更改所有值
pandasdataframe 
Pandas 将流程函数应用于数据帧中的组
pandas 
Pandas 使用自己的计算工具创建距离矩阵
pandas 
Pandas 我可以为一个列分配多个数据类型吗？
pandas 
Pandas TypeError:无法从ndarray中减去DatetimeArray
pandas 
Pandas Seaborn：如何更改显示的图形大小？
pandasmatplotlibgoogle-colaboratory 
Pandas 将数据帧的多个指定位置分配给序列
pandasdataframe 
Pandas 使用多个服务器创建数据帧
pandasdataframeparsing 
Pandas 熊猫队将在失踪的几个月内归队
pandas 
                                       





随机文章推荐



                                                        
如何在install4j向导上禁用“定位”按钮，并在未找到JRE的情况下显示自定义消息？
install4j 
如何检查安装是否成功完成-install4j
install4j 
不支持install4j JRE捆绑Linux？
install4j 
Install4j 运行使用6.1.1构建的安装时出现异常
install4j 
在取消绑定JRE后，Install4j找不到Java运行时环境
install4j


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 使用SQLAlchemy的Oracle数据库模式
									Python
							 									Oracle
							 									Sqlalchemy
							 
Python 用于将激活数据从电子邮件发送回django服务器的代码
									Python
							 									Django
							 
Python 如何按位置选择空间层并写入属性？
									Python
							 									Gis
							 
在Python中使用Scrapy进行Webrawling-如何强制页面显示面包屑菜单？
									Python
							 									Web Crawler
							 									Scrapy
							 
尝试按索引访问列表时出现Python错误-“；列表索引必须是整数，而不是str”；
									Python
							 
Python Matplotlib事件处理和Cython
									Python
							 									Matplotlib
							 
在Python中，记住最后一个名为/get的方法
									Python
							 
Python 如何在一个tcp数据包中进行flask响应？
									Python
							 									Flask
							 
Python 如何在Qt中获得关键点？
									Python
							 									Qt
							 
Python django（memcached）不缓存对象
									Python
							 									Django
							 
分发Python脚本
									Python
							 
Python Django基于用户组成员身份在模板中显示项目
									Python
							 									Django
							 
Python 执行模型示例（第4.2.4节：与动态特征的交互）
									Python
							 									Python 3.x
							 
Python Matplotlib等高线未闭合
									Python
							 									Matplotlib
							 
Python超时不'；好像不行
									Python
							 									Python 2.7
							 
Python 从os.listdir（路径）获取WinError 3或UnicodeDecodeError
									Python
							 									Path
							 
Python 不相关的列通过变量打破dask groupby，但不是平均值（不在pandas中）
									Python
							 									Pandas
							 									Csv
							 									Dask
							 
无法从Python中的当前文件夹加载库
									Python
							 
Python 带有unicode字符的py2exe
									Python
							 									Unicode
							 									Character Encoding
							 
Python 如何为熊猫创建滚动的每月日期时间索引？
									Python
							 									Pandas
							 
Visual studio赢得'；t为python导入模块
									Python
							 									Visual Studio
							 									Import
							 									Module
							 
用CSV控制python脚本
									Python
							 									Csv
							 									Variables
							 
如何将python源文件中的字符串转换为多行字符串？
									Python
							 									Regex
							 
Python 将torch.topk的dim参数合并到tf.nn.top_k中
									Python
							 									Tensorflow
							 									Pytorch
							 
有没有办法公平地实施Brian Kernighan'；在Python中计算一的s算法？
									Python
							 									Algorithm
							 									Performance
							 									Loops
							 
VS代码python解释器问题
									Python
							 									Python 3.x
							 
Python 如何捕获QWebEngineUrlRequestInterceptor截获的请求响应？
									Python
							 
Python 为什么在maya中首次按下alt modifier时不会触发“关键点释放”事件？
									Python
							 									Qt
							 
Python 保存matplotlib图形后如何组合它们？
									Python
							 									Image
							 									Matplotlib
							 									Plot
							 
Python CMake尝试安装人脸识别时出错
									Python
							 									Python 3.x
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Graph
Scikit Learn
View
Browser
Error Handling
Amazon S3
Zend Framework
Css
Google Chrome
Single Sign On
Matplotlib
Time
Drupal
File Io
Couchdb
Directory
Function
Linkedin
Asp.net Mvc 2
Numpy
Merge
Floating Point
Mqtt
Boost
Openlayers
Oracle11g
Z3
Cmd
Time Complexity
Tkinter
Zend Framework2
Vue.js
Erlang
Pyspark
Ide
Wix
Deep Learning
Scheme
Inheritance
Audio
Octave
Jvm
Npm
Cmake
Windows 8
Api
Docker
Cloud
Google Cloud Storage
Reporting Services
Parsing
Swiftui
Xamarin.forms
Django
Monitoring
Isabelle
Ios5
Wolfram Mathematica
Prometheus
Applescript
Enums
Apache Zookeeper
Machine Learning
Nativescript
3d
Compiler Construction
Stripe Payments
Speech Recognition
Kendo Ui
Arduino
Xsd
Material Ui
Jpa
D
Soap
Arm
Gulp
Pycharm
Bluetooth
Android Layout
Silverlight 4.0
Ignite
Dynamics Crm
Azure Data Factory
Firefox
Activemq
Redirect
.net
Apache Storm
Orchardcms
Jsf 2
Certificate
Redux
Nestjs
Entity Framework Core
Windows Phone 8.1
Xmpp
Reactjs
Sharepoint 2010
Cypress
Salesforce
Windows Phone 7
Corda
Webpack
Image Processing
Ssh
Windbg
Akka
Scrapy
Google Cloud Platform
Io
Playframework
Checkbox
Puppet
Vbscript
Paypal
Mips
Symfony
Linq
Doxygen
Openshift
Google Cloud Dataflow
Botframework
Pointers
Omnet++
Tensorflow
Outlook
Pascal
C
Tcl
Html5 Canvas
Hyperlink
Kubernetes
Redis
Search
Jekyll
Awk
Mongoose
Multithreading
Swift
Import
Datatables
Three.js
Smalltalk
Programming Languages
Processing
Web Crawler
Algorithm
Cordova
Parameters
Angularjs
Python Sphinx
Webrtc
Openlayers 3
Amazon Dynamodb
React Native
Types
Prolog
Ms Word
Gruntjs
Activerecord
Compression
Object
Google App Engine
Qt
Xpath
Plugins
Cucumber
Spring Cloud
Nservicebus
Lucene
Windows
Model
Dart
Artificial Intelligence
Django Models
Spring Integration
Flask
Titanium
Google Apps Script
Verilog
Transactions
Iis 7
Osgi
Office Js
Listview
Next.js
Matrix
Inno Setup
Optimization
Cron
Ansible
Google Maps
Django Rest Framework
Kdb
Swagger
Dojo
Odata
Cobol
Url
Virtual Machine


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网