Python 计算数据帧中产生不同结果的行数

Python 计算数据帧中产生不同结果的行数,python,pandas,Python,Pandas,我正在将一个csv文件读入数据帧,然后我尝试计算数据帧中的行数,但得到了不同的结果。这是我的密码 data_df = pd.read_csv(data_path, header=0) print(len(data_df.index)) # => 19695182 data_df_grouped = data_df.groupby(["SiteNumber", "WeekNumber", "PG"]).count() data_df_grouped #-> This will pr

我正在将一个csv文件读入数据帧,然后我尝试计算数据帧中的行数,但得到了不同的结果。这是我的密码

data_df = pd.read_csv(data_path, header=0)
print(len(data_df.index)) # => 19695182

data_df_grouped = data_df.groupby(["SiteNumber", "WeekNumber", "PG"]).count()

data_df_grouped #-> This will print out the dataframe in jupyter notebook... I got:

但我接着补充说:

data_df_grouped.sum()    # And I got:

因此,我可以清楚地看到行数不匹配。原因可能是什么


非常感谢您的帮助

刚刚发现我的数据帧中有重复的行,因此,上面的
计数
后跟
总和
产生了19695182行。此外,打印出
len(data\u df\u grouped.index)
将产生19573194行,因此
data\u df\u grouped.index
将返回唯一的行索引

data_df2 = data_df.drop_duplicates()
data_df2    # yielded: a dataframe with 19573194 rows × 12 columns which is what we want

可能有些行包含
0
NaN
?而不是
sum
和完整的数据帧,请尝试:
print(data\u df\u grouped.info())
print(data\u df\u grouped.descripe())