Python 熊猫：在一个热编码中将NaN视为看不见的值_Python_Pandas - Fatal编程技术网

Python 熊猫：在一个热编码中将NaN视为看不见的值

python pandas

Python 熊猫：在一个热编码中将NaN视为看不见的值,python,pandas,Python,Pandas,我有一个用于构建机器学习模型的训练集，我需要设置一些代码来预测测试集（我没有访问权限）例如，如果我有一个数据帧，train： car 0 Audi 1 BMW 2 Mazda 我可以使用pd.get_dummies获得： car_Audi car_BMW car_Mazda 0 1 0 0 1 0 1 0 2 0 0 1 调用此结果数据帧，train\u enco

我有一个用于构建机器学习模型的训练集，我需要设置一些代码来预测测试集（我没有访问权限）

例如，如果我有一个数据帧，

train

：

    car
0   Audi
1   BMW
2   Mazda

我可以使用

pd.get_dummies

获得：

   car_Audi car_BMW car_Mazda
0      1       0       0
1      0       1       0
2      0       0       1

调用此结果数据帧，

train\u encoded

现在，假设我的

test

数据帧如下所示：

    car
0   Mercedes

我可以使用：

pd.get_dummies(test).reindex(columns=train_encoded.columns)

要获得：

   car_Audi car_BMW car_Mazda
0      0       0       0

如何将

NaN

s视为我的

car

列中的未显示值？也就是说，如果我在

test

中的

car

列中遇到

NaN

，我想返回：

   car_Audi car_BMW car_Mazda
0      0       0       0

谢谢

如果您生成了一个字符串

filler

，该字符串未出现在

df.car

中，则，稍微修改温在评论中的建议（对于

'NAN'

是

df.car

中的字符串的情况），您可以使用

df.car.fillna(filler, inplace=True) 
pd.get_dummies(test).reindex(columns=train_encoded.columns)

如果您可以提前访问所有

df.car

，定义

filler

的一种方法是通过

filler = '_' + ''.join(df.car.unique())

因为它至少比其中最长的字符串长1。另一种方式是

您拥有此类项目的概率小于

len（df）/26**10

df.car=df.car.fillna（'NAN'）；pd.get_dummies（test）.reindex（columns=train_encoded.columns）

@Wen如果测试中

汽车中有NaN，但火车没有，那么在测试中我不会有额外的列吗？如果我的汽车中没有训练集的NaN，但我的汽车中有测试集的NaN，在我的一个热编码测试中会有一个额外的列，对吗？
filler = ''.join(random.choice(string.ascii_lowercase) for _ in range(10))




[pandas]相关文章推荐



                                                        
Pandas 我有一个多级的日期框，如何将第二级的日期设置为通用索引
pandas 
Pandas 按变换协方差进行分组
pandas 
Pandas 来自字符串的数据帧日期时间时间戳
pandasdataframe 
Pandas 基于深度列的数据帧重采样
pandas 
Pandas Pyspark等效于df.groupby（'；id'；）.resample（'；D'；）.last（）
pandasapache-sparkpyspark 
Pandas 创建由Groupby和transform生成的dataframe列
pandas 
Pandas 如何摆脱；属性错误：'；浮动'；对象没有属性'；log2'&引用；
pandaslambda 
Pandas 用另一个数据帧的列替换数据帧列中的某些项
pandasdataframe 
Pandas 熊猫的嵌套循环
pandas 
Pandas 对两个系列求和（除了“总计”仅显示一列求和）
pandasdataframe 
Pandas 向熊猫系列添加新值
pandas 
Pandas 通过计算差异进行分组
pandas 
Pandas 选择dataframe中的列并使用多索引对它们进行分组
pandasdataframe 
Pandas 大熊猫的分组年数总和
pandasmatplotlib 
Pandas 值为_counts（）的groupby结果后的透视数据帧
pandas 
Pandas 使用特定字符串和数组/列表选择数据帧列
pandas 
Pandas 飞点云
pandasdataframeloopsfilter 
Pandas 使用熊猫'；读取\u hdf以在Google Drive上加载数据失败，返回ValueError
pandasgoogle-colaboratory 
Pandas &引用；ValueError:数组的长度必须相同；
pandasdataframemachine-learning 
Pandas 在数据帧中创建列，传递不同数据帧中.iloc列的值
pandasdataframe 
                                       





随机文章推荐



                                                        
Browser 通过其他端口访问网站？
browser 
Browser 使用自定义浏览器键盘快捷方式
browser 
Browser 即使src不同，也显示相同的2个iFrame
browseriframe 
Browser 如何在web浏览器中打开新选项卡时设置默认网页？
browser 
Browser 在浏览器显示请求的页面之前，单击多个链接会发生什么
browser 
Browser Android支持哪些类型的浏览器重定向？
browserjavascriptandroid 
Browser 无需外部服务器的NAT遍历
browser 
Browser 最佳实践：（PHPUnit+；Selenium）一次登录，用于所有后端/限制区域测试
browsercookiesseleniumphpunit 
Browser 如何通过piwik跟踪浏览器版本？
browser 
Browser 使用智能卡或证书对浏览器中的数据进行数字签名
browser 
Browser Google Chrome中的默认搜索锁定到smartsputnik.ru
browser 
Browser WebStorm“Web浏览器”工具是如何工作的？
browserwebstorm 
Browser 在不创建新实例的情况下重新连接WebSocket
browserwebsocket 
Browser 桌面浏览器上的HTML媒体捕获
browser


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
如何在python中比较两个列表的值？
									Python
							 									List
							 
Python：dict派生类的使用-奇怪的自我行为={
									Python
							 									Class
							 									Dictionary
							 
如何修复此迭代python代码并减少重复？
									Python
							 
Python sys.argv负参数索引
									Python
							 
Python 多列熊猫系列
									Python
							 									Pandas
							 
Python 将错误条添加到熊猫中的分组条形图
									Python
							 									Matplotlib
							 									Pandas
							 
如何在没有PIL的tkinter python 3.3中显示jpg
									Python
							 									Tkinter
							 
Python Oracle和SQLAlchemy联接的大小写敏感错误
									Python
							 									Sql
							 									Oracle
							 									Sqlalchemy
							 
从另一个python文件获取变量而不导入
									Python
							 
Python Spyder随机无法定位chromedriver
									Python
							 
Python 计算每个字母在文本样本中出现的次数
									Python
							 									Python 2.7
							 
Python 使用Scapy编写脚本
									Python
							 									Linux
							 									Unicode
							 
Python Django中的动态逻辑查询生成器
									Python
							 									Django
							 
Python 使用matplotlib绘制百分位数
									Python
							 									Pandas
							 									Matplotlib
							 
Python '；int'；对象不可下标（从网站上刮表）
									Python
							 									Pandas
							 
Python：基于元素子集将列表拆分为多个列表
									Python
							 									Python 3.x
							 
Python 我可以创建一个数据框架来保存自定义类实例吗？
									Python
							 									Pandas
							 									Class
							 									Oop
							 									Dataframe
							 
Python 过度自信的模型预测导致全0梯度
									Python
							 									Tensorflow
							 									Machine Learning
							 									Keras
							 									Computer Vision
							 
Python 交错一个numpy矩阵的行，生成置换方案
									Python
							 									Numpy
							 
在Python中，如何计算数字'；1'；电子邮件地址列表中有什么？
									Python
							 									List
							 
Python Subprocess.Popen未运行其他脚本
									Python
							 
Python 基于匹配的不同图纸/文件的总和值
									Python
							 									Pandas
							 									Dataframe
							 
Python OpenCV在相机午餐时显示错误消息
									Python
							 									Python 3.x
							 									Opencv
							 									Error Handling
							 									Raspberry Pi
							 
Python Django：在相关模型中计算外键值的正确方法
									Python
							 									Django
							 									Django Models
							 
Python 使用PyGithub创建Gist
									Python
							 
Python 遍历两列并匹配表中不同行的值
									Python
							 									Pandas
							 
Python 如何将列表[]中的所有事件插入CompositeVideoClip
									Python
							 
Python 如何在透视表中查找列的位置
									Python
							 									Pandas
							 
Python 在conda环境中启动jupyter时出错消息
									Python
							 									Jupyter Notebook
							 
Python 素数程序中的一个指数抛出一个内存错误，我如何解决这个问题？
									Python
							 									Python 3.x
							 									Memory
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Windows Phone 8.1
Mips
Jquery
Automation
Swagger
Oracle Apex
Web
Android Studio
Appium
Input
Aframe
Visual Studio Code
Routing
Google Chrome
Xamarin.android
Cocos2d Iphone
Sails.js
Database Design
Grails
Report
String
Sharepoint 2013
Azure Devops
Qt4
Maven
Rspec
Cmake
Playframework
Office Js
Subsonic
Zend Framework2
Filter
Atom Editor
Clojure
Jdbc
Acumatica
Plone
Ssas
Vim
Kibana
Wicket
EmptyTag
Entity Framework 4
Asp.net Core Mvc
Windbg
Linux Kernel
Fonts
Wcf
Wso2
Amazon S3
Composer Php
Sharepoint 2010
Sequelize.js
F#
Symfony1
Gremlin
Crystal Reports
Tinymce
Mercurial
Jakarta Ee
Telegram
Axapta
Domain Driven Design
Azure Active Directory
Computer Science
Fullcalendar
Npm
Hyperlink
Google App Engine
Svg
Hash
Cron
Vb6
Sql
Xpath
Facebook Graph Api
Navigation
Hybris
Sed
Liferay
Ssl
Cocoa Touch
Jsp
Visual C++
Weblogic
Nosql
Z3
Angular6
Jquery Mobile
Doxygen
Opencv
Openerp
Arduino
Ruby On Rails 3.2
Msbuild
Ionic2
Coldfusion
Codenameone
Tsql
Command Line
Bluetooth
Windows 10
Browser
Servlets
Haskell
Ldap
Embedded
Google App Maker
Memory Leaks
Module
Visual Studio 2012
Xsd
Hazelcast
Apache
Path
Struct
Microservices
Primefaces
Programming Languages
Orm
Templates
Stripe Payments
Uwp
Twitter Bootstrap 3
Windows 8
Less
Compiler Errors
Prometheus
Gulp
Events
Computer Vision
Passwords
Batch File
Drop Down Menu
Omnet++
Proxy
Shopify
Spring Batch
C# 4.0
Vb.net
Eclipse Plugin
Dynamics Crm 2011
Google Cloud Dataflow
Stored Procedures
Gtk
Parsing
Network Programming
Installation
Menu
Artificial Intelligence
View
Heroku
Editor
Netlogo
Apache Nifi
Common Lisp
Lotus Notes
Marklogic
Autodesk Forge
Caching
Nuget
Google Cloud Platform
Operating System
Logic
Matrix
Jpa
Xpages
Scikit Learn
Asterisk
Kernel
Ajax
Collections
Nservicebus
Outlook
Orientdb
Jetty
Twitter Bootstrap
Iis 7
Linq To Sql
Breeze
Dialogflow Es
.net 4.0
Antlr4
Parameters
Visual Studio 2008
Plot
Uml
Modelica
C++
.net Core
Glsl
Scheme
Core Data
Xcode4
Drupal
Ffmpeg
D3.js
Jms
Wolfram Mathematica
Web Crawler
Android Fragments


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网