Python 用于热图的数据透视表
我正在尝试使用seaborn生成热图,但是我的数据格式有一个小问题 目前,我的数据格式如下:Python 用于热图的数据透视表,python,pandas,seaborn,Python,Pandas,Seaborn,我正在尝试使用seaborn生成热图,但是我的数据格式有一个小问题 目前,我的数据格式如下: Name Diag Date A 1 2006-12-01 A 1 1994-02-12 A 2 2001-07-23 B 2 1999-09-12 B 1 2016-10-12 C 3 2010-01-20 C 2
Name Diag Date
A 1 2006-12-01
A 1 1994-02-12
A 2 2001-07-23
B 2 1999-09-12
B 1 2016-10-12
C 3 2010-01-20
C 2 1998-08-20
我想创建一个热图(最好是python),在一个轴上显示Name
,与Diag
(如果发生)相对应。我曾尝试使用pd.pivot
透视表,但出现了错误
ValueError:索引包含重复的条目,无法重塑
这来自:
piv=df.pivot_表(index='Name',columns='Diag')
时间是不相关的,但我想展示一下哪些名称
拥有哪些Diag
,哪些Diag
组合聚集在一起。我是否需要为此创建一个新表,或者是否可能为此创建一个新表?在某些情况下,Name
与所有Diag
编辑:
此后,我尝试:
piv=df.pivot_表(index='Name',columns='Diag',values='Time',aggfunc='mean')
然而,由于时间是datetime格式的,因此我的结论是:pandas.core.base.DataError:没有要聚合的数值类型您需要使用一些聚合函数,因为对于同一索引和列,有多个值,并且
pivot
只需要唯一的值:
print (df)
Name Diag Time
0 A 1 12 <-duplicates for same A, 1 different value
1 A 1 13 <-duplicates for same A, 1 different value
2 A 2 14
3 B 2 18
4 B 1 1
5 C 3 9
6 C 2 8
df = df.pivot_table(index='Name',columns='Diag', values='Time', aggfunc='mean')
print (df)
Diag 1 2 3
Name
A 12.5 14.0 NaN
B 1.0 18.0 NaN
C NaN 8.0 9.0
编辑:
您还可以通过以下方式检查所有副本:
编辑:
日期时间的平均值
不容易-需要将日期转换为纳秒
,获取平均值和最后一次转换为日期时间。还有另一个问题-需要将NaN
替换为某个标量,例如0
转换为0
datetime-1970-01-01
df.Date = pd.to_datetime(df.Date)
df['dates_in_ns'] = pd.Series(df.Date.values.astype(np.int64), index=df.index)
df = df.pivot_table(index='Name',
columns='Diag',
values='dates_in_ns',
aggfunc='mean',
fill_value=0)
df = df.apply(pd.to_datetime)
print (df)
Diag 1 2 3
Name
A 2000-07-07 12:00:00 2001-07-23 1970-01-01
B 2016-10-12 00:00:00 1999-09-12 1970-01-01
C 1970-01-01 00:00:00 1998-08-20 2010-01-20
您需要使用一些聚合函数,因为对于同一索引和列,有多个值,pivot
只需要唯一的值:
print (df)
Name Diag Time
0 A 1 12 <-duplicates for same A, 1 different value
1 A 1 13 <-duplicates for same A, 1 different value
2 A 2 14
3 B 2 18
4 B 1 1
5 C 3 9
6 C 2 8
df = df.pivot_table(index='Name',columns='Diag', values='Time', aggfunc='mean')
print (df)
Diag 1 2 3
Name
A 12.5 14.0 NaN
B 1.0 18.0 NaN
C NaN 8.0 9.0
编辑:
您还可以通过以下方式检查所有副本:
编辑:
日期时间的平均值
不容易-需要将日期转换为纳秒
,获取平均值和最后一次转换为日期时间。还有另一个问题-需要将NaN
替换为某个标量,例如0
转换为0
datetime-1970-01-01
df.Date = pd.to_datetime(df.Date)
df['dates_in_ns'] = pd.Series(df.Date.values.astype(np.int64), index=df.index)
df = df.pivot_table(index='Name',
columns='Diag',
values='dates_in_ns',
aggfunc='mean',
fill_value=0)
df = df.apply(pd.to_datetime)
print (df)
Diag 1 2 3
Name
A 2000-07-07 12:00:00 2001-07-23 1970-01-01
B 2016-10-12 00:00:00 1999-09-12 1970-01-01
C 1970-01-01 00:00:00 1998-08-20 2010-01-20
谢谢这很有帮助。现在的问题可能是时间实际上是数据时间格式,所以不是数字。也许我应该添加一个关于这些问题的专栏作为解决方法?我认为这是同样的问题。但我知道如何检查这些值,请给我一个sec.pandas.core.base.DataError:没有要聚合的数字类型是我当前的错误。不幸的是,我没有在示例中输入正确的数据类型,因为它的时间格式是“2016-12-12”。好的,没问题。主要问题是-你需要平均值吗?还是只需要第一个值?谢谢!这很有帮助。现在的问题可能是时间实际上是数据时间格式,所以不是数字。也许我应该添加一个关于这些问题的专栏作为解决方法?我认为这是同样的问题。但我知道如何检查这些值,请给我一个sec.pandas.core.base.DataError:没有要聚合的数字类型是我当前的错误。不幸的是,我没有在示例中输入正确的数据类型,因为它的时间格式是“2016-12-12”。好的,没问题。主要问题是-您需要mean吗?还是只需要第一个值?这个问题可以从一些代码中受益匪浅,这些代码显示了您实际尝试的pivot语法。只显示错误会让我们任何阅读它的人都不得不猜测很多。如果有一些代码显示您实际尝试的pivot语法,这个问题可能会大大受益。仅仅显示错误就让我们阅读它的人不得不猜测很多。