使用python进行数据分析_Python_Pandas_Data Analysis

使用python进行数据分析

python pandas

使用python进行数据分析,python,pandas,data-analysis,Python,Pandas,Data Analysis,我有一个数据框，如下所示： member_id | loan_amnt | Age | Marital_status AK219 | 49539.09 | 34 | Married AK314 | 1022454.00 | 37 | NA BN204 | 75422.00 | 34 | Single 我想以下面的格式创建一个输出文件 Columns | Null Val

我有一个数据框，如下所示：

 member_id  |   loan_amnt   |  Age   | Marital_status
 AK219      |    49539.09   |  34    |  Married 
 AK314      |    1022454.00 |  37    |  NA
 BN204      |    75422.00   |  34    |  Single

我想以下面的格式创建一个输出文件

 Columns       | Null Values | Duplicate |
 member_id     |  N          |   N       |
 loan_amnt     |  N          |   N       |
 Age           |  N          |   Y       |
 Marital Status|  Y          |   N       |

我知道一个名为

PandasProfiling

的python包，但我希望以上述方式构建它，以便我可以增强与数据集相关的代码。

使用以下内容：

m=df.apply(lambda x: x.duplicated())
n=df.isna()
df_new=(pd.concat([pd.Series(n.any(),name='Null_Values'),pd.Series(m.any(),name='Duplicates')],axis=1)
                     .replace({True:'Y',False:'N'}))

下面是一行：

pd.concat（[df.isnull（）.any（），df.apply（lambda x:x.count（）！=x.nunique（）），1）.替换（{True:Y'，False:N}）

实际上，Pandas\u评测为您提供了多个选项，您可以在其中找出是否存在重复值。

您尝试了什么吗？@Ruturaj-我运行了python包

PandasProfiling

，它给了我关于空值、重复值、最大值和最小值的详细信息。但我想自己建造这个。我需要进一步加强这一点。