Python 泰坦尼克号数据集年龄的Nan值预测

Python 泰坦尼克号数据集年龄的Nan值预测,python,machine-learning,vectorization,Python,Machine Learning,Vectorization,我没有用均值或类似值替换Nan年龄值,而是得到一个建议,即我应该尝试猜测所讨论的人是否是孩子,然后在数据集中创建一个is child列,并为已知年龄和Nan的可能值添加正确的值 所以,我知道,如果名字里有一个先生或夫人,那肯定不是一个孩子,而如果有一个主人。或者小姐,可能是孩子,也可能不是。我又想,如果它是主人的话。或者小姐。并且parch列(父-子列)为非零,这意味着parch计数仅适用于父级,因此parch>0和Master可能适用。或者小姐,它是一个孩子,其他情况下,它不是一个孩子 现在我

我没有用均值或类似值替换Nan年龄值,而是得到一个建议,即我应该尝试猜测所讨论的人是否是孩子,然后在数据集中创建一个is child列,并为已知年龄和Nan的可能值添加正确的值

所以,我知道,如果名字里有一个先生或夫人,那肯定不是一个孩子,而如果有一个主人。或者小姐,可能是孩子,也可能不是。我又想,如果它是主人的话。或者小姐。并且parch列(父-子列)为非零,这意味着parch计数仅适用于父级,因此parch>0和Master可能适用。或者小姐,它是一个孩子,其他情况下,它不是一个孩子

现在我的问题是,如何用python编写代码?到目前为止,我有直接的解决方案,比如

df['isChild'] = [1 if x<=18 else 0 for x in df['Age']]

df['isChild']=[1如果x您可以使用熊猫的
apply
方法:

def conditions(row):
     if row.Age <= 18:
         return 1
     elif condition:
         ...

df['isChild'] = df.apply(conditions, axis=1)
def条件(行):

如果row.Age你能发送到数据集的链接,或者如何获取它?对不起,我刚刚添加了链接你看到这个kaggle了吗?他用估算未命中年龄的方法说服了我自己但我的问题是,isChild现在不仅依赖于年龄,还依赖于parch列和Name列。如果年龄是Nan,那么isChild将完全依赖于parch和Name。How确实解决了这个问题,因为我在这里看到的是一个新数据对一列的依赖column@Krash你仍然可以使用apply。我刚刚更新了我的答案。