Python 熊猫:读取列中带有特殊字符的文件
在我拥有的数据中,一些特征值是Python 熊猫:读取列中带有特殊字符的文件,python,python-2.7,numpy,pandas,Python,Python 2.7,Numpy,Pandas,在我拥有的数据中,一些特征值是?。如何将它们替换为NA 编辑 代码和输出如下所示: df = pd.read_csv("cca-census-income.csv", header = None) df.replace('?', np.nan, inplace=True) df.ix[0,] 23 Other relative of householder 24 1700.09 25
?
。如何将它们替换为NA
编辑
代码和输出如下所示:
df = pd.read_csv("cca-census-income.csv", header = None)
df.replace('?', np.nan, inplace=True)
df.ix[0,]
23 Other relative of householder
24 1700.09
25 ?
26 ?
27 ?
28 Not in universe under 1 year old
29 ?
30 0
将参数
na_值='?'
添加到
样本:
import pandas as pd
import io
temp=u"""Date Time,a
2010-01-27 16:00:00,?
2010-01-27 16:10:00,2.2
2010-01-27 16:30:00,1.7"""
df = pd.read_csv(io.StringIO(temp),na_values='?')
print (df)
Date Time a
0 2010-01-27 16:00:00 NaN
1 2010-01-27 16:10:00 2.2
2 2010-01-27 16:30:00 1.7
编辑:
感谢您的建议添加skipinitialspace=True
:
temp=u"""Date Time,a
? , ?
? ,?
2010-01-27 16:30:00,1.7"""
df = pd.read_csv(io.StringIO(temp),na_values=['?', '? '], skipinitialspace =True)
print (df)
Date Time a
0 NaN NaN
1 NaN NaN
2 2010-01-27 16:30:00 1.7
按文件编辑1:
看起来在之前只有空格?
:
df = pd.read_csv('census-income.data',
header = None,
na_values=['?'],
skipinitialspace =True)
print (df)
读取文件后,请使用:
我试过了,但没用df=pd.read_csv(“train.csv”,header=None,na_values='?')
输出为df.ix[0,]
仍显示?
是否仅存在?
?可能有一些空间。尝试添加skipintialspace=True
@jezrael我看不到。数据来自这里,这也不起作用。我刚刚提供了代码和输出。
df.repalce('.?',np.nan,inplace=True,regex=True)