Python 如何使用pandas查找特定列具有十进制数的行？_Python_Pandas_Data Quality

Python 如何使用pandas查找特定列具有十进制数的行？

python pandas

Python 如何使用pandas查找特定列具有十进制数的行？,python,pandas,data-quality,Python,Pandas,Data Quality,我正在使用pandas编写一个数据质量脚本，脚本将检查每列上的某些条件目前，我需要找出在特定列中没有小数或实际数字的行。如果它是一个整数，我就能够找到这些数字，但是到目前为止我所看到的方法，如isdigit（）、isnumeric（）、isdecimal（）等，都无法正确识别数字是十进制数字。例：2.5、0.1245等以下是一些示例代码和数据： >>> df = pd.DataFrame([ [np.nan, 'foo', 0], [1, '', 1],

我正在使用pandas编写一个数据质量脚本，脚本将检查每列上的某些条件

目前，我需要找出在特定列中没有小数或实际数字的行。如果它是一个整数，我就能够找到这些数字，但是到目前为止我所看到的方法，如

isdigit（）、isnumeric（）、isdecimal（）

等，都无法正确识别数字是十进制数字。例：2.5、0.1245等

以下是一些示例代码和数据：

>>> df = pd.DataFrame([
    [np.nan, 'foo', 0],
    [1, '', 1],
    [-1.387326, np.nan, 2],
    [0.814772, ' baz', ' '],     
    ["a", '      ', 4],
    ["  ",  'foo qux ', '  '],         
], columns='A B C'.split(),dtype=str)

>>> df
    A   B   C
0   NaN foo 0
1   1       1
2   -1.387326   NaN 2
3   0.814772    baz 
4   a       4
5       foo qux 

>>> df['A']
0          NaN
1            1
2    -1.387326
3     0.814772
4            a
5             
Name: A, dtype: object

以下方法都无法识别十进制数

df['A'].fillna('').str.isdigit()
df['A'].fillna('').str.isnumeric()
df['A'].fillna('').str.isdecimal()

0    False
1     True
2    False
3    False
4    False
5    False
Name: A, dtype: bool

所以当我尝试下面的方法时，我只得到1行

>>> df[df['A'].fillna('').str.isdecimal()]
    A   B   C
1   1       1

注意：我正在使用

dtype=str

获取数据，而不需要解释/更改数据类型的值。实际数据可能在A列中有空格，我将使用replace（）将其删除，我在这里保持了代码的简单性，以避免混淆。

与

errors='concurve'

一起使用，用于非数字的to

NaN

s，然后通过以下方式进行测试：

如果需要为缺少的值返回

True

s：

print (pd.to_numeric(df['A'], errors='coerce').notna() | df['A'].isna())
0     True
1     True
2     True
3     True
4    False
5    False
Name: A, dtype: bool

另一个具有自定义功能的解决方案：

def test_numeric(x):
    try:
        float(x)
        return True
    except Exception:
        return False

print (df['A'].apply(test_numeric))
0     True
1     True
2     True
3     True
4    False
5    False
Name: A, dtype: bool

print (df['A'].fillna('').apply(test_numeric))
0    False
1     True
2     True
3     True
4    False
5    False
Name: A, dtype: bool

Alternativ，如果要保留字符串结构，可以使用：

df['A'].str.contains('.')

0    False
1     True
2    False
3    False
4    False
5    False

在这种情况下，唯一的风险可能是你也用

识别单词。这不是你的意愿

df['A'].str.contains('.')

0    False
1     True
2    False
3    False
4    False
5    False