Python:如何比较包含文本项的列以及它们之间的关系

Python:如何比较包含文本项的列以及它们之间的关系,python,pandas,numpy,venn-diagram,Python,Pandas,Numpy,Venn Diagram,我完全是一个python新手,刚开始编写脚本。 我有一个包含三个样本的数据框架,每个样本都有一个肽序列列表,如: d = {'Sample 1': ['QSFLEVSYYPMAGYIKEDSIM', 'MLPIQTRIAS', 'AAVACTVLRCLAAEQQTSRSVDEAY'], 'Sample 2': ['QSFLEVSYYPTEIRQMGM', 'AEAARLVLAARIKGDAM', 'AAVACTVLRCLAAEQQTSRSVDEAY'], 'Sample 3': ['AAIGVH

我完全是一个python新手,刚开始编写脚本。 我有一个包含三个样本的数据框架,每个样本都有一个肽序列列表,如:

d = {'Sample 1': ['QSFLEVSYYPMAGYIKEDSIM', 'MLPIQTRIAS', 'AAVACTVLRCLAAEQQTSRSVDEAY'], 'Sample 2': ['QSFLEVSYYPTEIRQMGM', 'AEAARLVLAARIKGDAM', 'AAVACTVLRCLAAEQQTSRSVDEAY'], 'Sample 3': ['AAIGVHLGCTSACVAVYAADRGMKL', 'QSFLEVSYYPTEIRQMGM', 'AAVACTVLRCLAAEQQTSRSVDEAY']}
df = pd.DataFrame(data=d)
我想做的是找出这三个样本中哪些肽是相互的,并绘制一个维恩图

我用两个样本做了这件事,但是我找不到太多帮助,所以我“手动”做了维恩绘图

import matplotlib_venn as vplt
from matplotlib import pyplot as plt
from matplotlib_venn import venn2, venn2_circles
import pandas as pd
import numpy as np

df_txt = pd.read_csv('all_Peptides_sortFN.txt', delimiter='\t')
df_txt.count()
df_txt['Peptides'] = df_txt["FN"] + df_txt["FN_18"]
AllPeps = df_txt.groupby('Peptides').count()
AllPeps.drop_duplicates(subset=None, keep='first', inplace=False)
AllPeps = df_txt.groupby('Peptides').count()
AllPeps.drop_duplicates(subset=None, keep='first', inplace=False)
AllPeps['result'] = np.where(AllPeps['FN'] == AllPeps['FN_18'], '1', '0')
AllPeps.head()
AllPeps.result.value_counts()
plt.figure(figsize=(10,10))
v = venn2(subsets=(3411, 1737, 1150), set_labels = ('Filgrastim', 'Filgrastim 18O'))
plt.title('Comparison of peptides in just digested and 18O-labeled Filgrastim(new batch)')
plt.savefig('VennFN.png')
plt.show()
我很感激每一个建议:)

你试过这个吗

from matplotlib_venn import venn3
venn3([set(v) for v in d.values()], set_labels=d.keys())

变量和函数名称通常应遵循带有下划线的
小写形式。