Python 避免数据帧中的键错误_Python_Pandas_Dataframe

Python 避免数据帧中的键错误

python pandas dataframe

Python 避免数据帧中的键错误,python,pandas,dataframe,Python,Pandas,Dataframe,我正在用下面的代码验证我的数据帧 df = df[(df[['name', 'issuer_id', 'service_area_id']].notnull().all(axis=1)) & ((df['plan_year'].notnull()) & (df['plan_year'].astype(str).str.isdigit()) & (df['plan_year'].astype(str).str.len() == 4)) &am

我正在用下面的代码验证我的数据帧

df = df[(df[['name', 'issuer_id', 'service_area_id']].notnull().all(axis=1)) &
                ((df['plan_year'].notnull()) & (df['plan_year'].astype(str).str.isdigit()) & (df['plan_year'].astype(str).str.len() == 4)) &
                (df[['network_url', 'formulary_url', 'sbc_download_url', 'treatment_cost_calculator_url']].astype(str).apply(lambda x: (x.str.contains('\A(https?:\/\/)([a-zA-Z0-9\-_])*(\.)*([a-zA-Z0-9\-]+)\.([a-zA-Z\.]{2,5})(\.*.*)?\Z')) | x.isin(['nan'])).all(axis=1)) &
                (df[['promotional_label']].astype(str).apply(lambda x: (x.str.len <= 65) | x.isin(['nan'])).all(axis=1)) &
                # (df[['sort_rank_override']].astype(str).apply(lambda x: (x.str.isdigit()) | x.isin(['nan'])).all(axis=1)) &
                ((df['hios_plan_identifier'].notnull()) & (df['hios_plan_identifier'].str.len() >= 10) & (df['hios_plan_identifier'].str.contains('\A(\d{5}[A-Z]{2}[a-zA-Z0-9]{3,7}-TMP|\d{5}[A-Z]{2}\d{3,7}(\-?\d{2})*)\Z'))) &
                (df['type'].isin(['MetalPlan', 'MedicarePlan', 'BasicHealthPlan', 'DualPlan', 'MedicaidPlan', 'ChipPlan'])) &
                (df['price_period'].isin(['Monthly', 'Yearly'])) &
                (df['is_age_29_plan'].astype(str).isin(['True', 'False', 'nan']))]
                # (df[['composite_rating']].astype(str).apply(lambda x: (x.str.isin(['True', 'False']) & x.isnotin(['nan'])).all(axis=1)))]

df=df[（df['name'，'issuer\u id'，'service\u area\u id']].notnull（）.all（axis=1））&
（（df['plan_year'].notnull（））和（df['plan_year'].astype（str.str.isdigit（））和（df['plan_year'].astype（str.str.len（）==4））&
（df['network\u url'、'formulary\u url'、'sbc\u download\u url'、'treatment\u cost\u calculator\u url']].astype（str）.apply（lambda x:'str.contains（'\A（https？：\/\/）（[A-zA-Z0-9\-]）*（[A-zA-Z0-9\-]+）。（[A-zA-Z\.]{2,5}）（\.*.*\Z'））；x.isin（['nan=1）轴）&
（df[['promotional\u label'].astype（str）.apply（lambda x:[x.str.len=10）&（df['hios\u plan\u identifier'].str.contains（'\A（\d{5}[A-Z]{2}[A-zA-Z0-9]{3,7}-TMP{124;\ d{5}[A-Z]{2}\d{3,7}））\Z'））&
（df['type'].isin（['MetalPlan'，'medicaleplan'，'BasicHealthPlan'，'DualPlan'，'MedicaidPlan'，'ChipPlan']））&
（df[‘价格周期’].isin（[‘每月’、‘每年’））&
（df['is_age_29_plan'].astype（str）.isin（['True'，'False'，'nan']））
#（df[['composite_rating'].astype（str）.apply（lambda x:（x.str.isin（['True'，'False']）和x.isnotin（['nan']）。全部（axis=1）））

这会把我甩了

KeyError:“['name']不在索引中”

当该列不在我的数据框中时。我需要处理所有列。如何有效地向我的上述代码中添加一个只在该列存在时检查验证的检查？

您可以使用：

编辑：

想法是首先为每个列创建有效值字典：

valid = {'name':'a', 
        'issuer_id':'a',
        'service_area_id':'a',
        'plan_year':2015,
         ...}

然后根据缺少的列筛选新字典，并将其转换为原始的

DataFrame

，然后创建新的DataFrame：

d1 = {k: v for k, v in valid.items() if k in set(valid.keys()) - set(df.columns)}
print (d1)
{'issuer_id': 'a', 'service_area_id': 'a'}


df1 = df.assign(**d1)
print (df1)
  name  plan_year issuer_id service_area_id
0    a       2015         a               a
1    b       2015         a               a
2    c       2015         a               a
3    d          5         a               a
4    e          5         a               a
5    f          4         a               a

最后一个过滤器：

m1 = (df1[['name', 'issuer_id', 'service_area_id']].notnull().all(axis=1)) 
m2 = ((df1['plan_year'].notnull()) & 
      (df1['plan_year'].astype(str).str.isdigit()) & 
      (df1['plan_year'].astype(str).str.len() == 4))

df1 = df1[m1 & m2]
print (df1)
  name  plan_year issuer_id service_area_id
0    a       2015         a               a
1    b       2015         a               a
2    c       2015         a               a

最后，可以删除辅助列：

df1 = df1[m1 & m2].drop(d1.keys(), axis=1)
print (df1)
  name  plan_year
0    a       2015
1    b       2015
2    c       2015

添加另一个名为

columns

的变量，并使用df中存在的变量对其进行过滤：

columns = ['name', 'issuer_id', 'service_area_id']
existing = [i for i in columns if i in df.columns]
df = df[(df[existing]...

编辑您还可以将每个条件指定给一个变量，然后像这样使用它：

cond1 = df['is_age_29_plan'].astype(str).isin(['True', 'False', 'nan']) if 'is_age_29_plan' in df.columns else True

然后，在您的筛选语句中使用

cond1

。

我已经用我拥有的完整验证更新了我的问题。我的数据框中可能缺少任何字段。我如何处理这种情况？@user1896796-那么如果缺少

计划年并且有条件，该怎么办？如果缺少列，需要从返回什么df['plan_year'].astype（str）.str.isdigit（）
？如True
？或False？我试图让我的验证确保plan\u year
不能为空，它应该是一个数字，长度应该为4。如果不满意，任何这些都不应该包含在我返回的数据框中。您的解决方案没有问题。我正在尝试。我想我们可以使用方法。提供检查该列中是否存在此列，并执行验证there@user1896796-使用m=df['min_group_price'].isnull（）| df['single_male'，'single_male'].notnull（）.all（axis=1）您能否检查我更新的问题。我的数据框中可能缺少任何字段。我如何处理这种情况？您能否提供代码片段，说明如何在筛选中使用cond1？
columns = ['name', 'issuer_id', 'service_area_id']
existing = [i for i in columns if i in df.columns]
df = df[(df[existing]...

cond1 = df['is_age_29_plan'].astype(str).isin(['True', 'False', 'nan']) if 'is_age_29_plan' in df.columns else True