Python 熊猫删除任何字符串都不可用的行_Python_String_Pandas_Indexing_Numeric

Python 熊猫删除任何字符串都不可用的行

python string pandas indexing

Python 熊猫删除任何字符串都不可用的行,python,string,pandas,indexing,numeric,Python,String,Pandas,Indexing,Numeric,一个非常基本的qs家伙-Than的虚拟机来看看。我想删除Col1中包含任何字符串的行-只关心Col1中的数值输入： Col1 Col2 Col3 0 123 48.0 ABC 1 45 85.0 DEF 2 A.789 66.0 PQR 3 RN.35 9.0 PQR 4 LMO 12.0 ABC 输出： Col1 Col2 Col3 0 123.0 48.0 ABC 1 45.0

一个非常基本的qs家伙-Than的虚拟机来看看。我想删除

Col1

中包含任何字符串的行-只关心

Col1

中的数值

输入：

      Col1  Col2 Col3
0      123  48.0  ABC
1       45  85.0  DEF
2    A.789  66.0  PQR
3    RN.35   9.0  PQR
4      LMO  12.0  ABC

输出：

      Col1  Col2 Col3
0    123.0  48.0  ABC
1     45.0  85.0  DEF

我试过了

test = input_[input_['Col1'].str.contains(r'ABCDEGGHIJKLMNOPQRSTUVWXYZ.')]

但是看到这个错误了吗

ValueError:无法使用包含NA/NaN值的向量进行索引

你能：

简要解释一下为什么这不起作用
请问替代方案是什么

import re
regex = re.compile("[a-zA-Z]+")
df.ix[df.col1.map(lambda x: regex.search(x) is None)]

import re
regex = re.compile("[a-zA-Z]+")
df.ix[df.col1.map(lambda x: regex.search(x) is None)]

errors='concurve'

NaN

NaN

计时

#[100000 rows x 3 columns]    
df = pd.concat([df]*10000).reset_index(drop=True)

In [16]: %timeit (df.ix[df.Col1.map(lambda x: re.compile("[a-zA-Z]+").search(x) is None)])
10 loops, best of 3: 57.7 ms per loop

In [17]: %timeit (df[pd.to_numeric(df.Col1, errors='coerce').notnull()])
10 loops, best of 3: 22 ms per loop

In [18]: %timeit (df[~df['Col1'].astype(str).str.contains(r'[ABCDEGGHIJKLMNOPQRSTUVWXYZ.]', na=False)])
10 loops, best of 3: 38.8 ms per loop

astype

str

[]

na=False

NaN

col1

False

print (df['Col1'].astype(str).str.contains(r'[ABCDEGGHIJKLMNOPQRSTUVWXYZ.]', na=False))
0    False
1    False
2     True
3     True
4     True
Name: Col1, dtype: bool

errors='concurve'

NaN

NaN

计时

#[100000 rows x 3 columns]    
df = pd.concat([df]*10000).reset_index(drop=True)

In [16]: %timeit (df.ix[df.Col1.map(lambda x: re.compile("[a-zA-Z]+").search(x) is None)])
10 loops, best of 3: 57.7 ms per loop

In [17]: %timeit (df[pd.to_numeric(df.Col1, errors='coerce').notnull()])
10 loops, best of 3: 22 ms per loop

In [18]: %timeit (df[~df['Col1'].astype(str).str.contains(r'[ABCDEGGHIJKLMNOPQRSTUVWXYZ.]', na=False)])
10 loops, best of 3: 38.8 ms per loop

astype

str

[]

na=False

NaN

col1

False

print (df['Col1'].astype(str).str.contains(r'[ABCDEGGHIJKLMNOPQRSTUVWXYZ.]', na=False))
0    False
1    False
2     True
3     True
4     True
Name: Col1, dtype: bool