Python 如何获取只包含真实值的记录列表

Python 如何获取只包含真实值的记录列表,python,pandas,dataframe,Python,Pandas,Dataframe,我有一个包含不同列的客户事件的数据框架。有些事件出现不止一次。我想把所有这些事件都列在清单上。我这样做: dup\u evets=[df\u in['EVENTS']。值计数()>1] 这会将所有事件放在一个列表中,并根据检查事件是否出现超过1次,将True/False添加到每个事件中 如何从列表中删除错误的内容?您可以执行以下操作: df_in[df_in['EVENTS'].duplicated()]['EVENTS'].tolist() 解释: # Returns Series of b

我有一个包含不同列的客户事件的数据框架。有些事件出现不止一次。我想把所有这些事件都列在清单上。我这样做:

dup\u evets=[df\u in['EVENTS']。值计数()>1]

这会将所有事件放在一个列表中,并根据检查事件是否出现超过1次,将True/False添加到每个事件中

如何从列表中删除错误的内容?

您可以执行以下操作:

df_in[df_in['EVENTS'].duplicated()]['EVENTS'].tolist()
解释:

# Returns Series of booleans, called a mask.
mask = df_in['EVENTS'].duplicated()

# Slice (filter) dataframe based on boolean series, only returning the True ones
df_in[mask]

# Get column you are interested in
df_in[mask]['EVENTS']

# Return list of the values in it
df_in[mask]['EVENTS'].tolist()
如果您想拥有其他金额,而不仅仅是找到重复的金额,您可以使用以下方法:

df_in[df_in.groupby(['EVENTS'])['EVENTS'].transform('count')>1]['EVENTS'].tolist()

请提供一个i'm get
索引错误:作为索引器提供的不可对齐布尔序列
;你不也是这样吗?版本1.2.4如果mattersI尝试运行:
dup_events=[df_in['events'].value_counts()>1]['events'].tolist()
,我得到以下错误:类型错误:列表索引必须是整数或片,而不是str@MustafaAydın ahhh,这就是我请求ofc的原因。value_counts()不会返回相同大小的数据,它已经对数据进行分组并提供分组值计数,因此掩码不适合原始数据帧。我调整了我的答案。@BoSanders调整了我的答案