Python 3.x 如何查找至少有X个百分比的行具有相同值的列/要素？[Python]_Python 3.x_Pandas

Python 3.x 如何查找至少有X个百分比的行具有相同值的列/要素？[Python]

python-3.x pandas

Python 3.x 如何查找至少有X个百分比的行具有相同值的列/要素？[Python],python-3.x,pandas,Python 3.x,Pandas,假设我有一个非常大的数据集，其中包含“N”行和“M”特征。我还有两个输入 “m”：定义要检查的要素数量（m） “支持”=功能“m”子集的相同行/总行数。这基本上是考虑到功能“m”个数时相同行数的最小百分比我需要返回“支持”值大于预定义值的功能组例如，让我们以这个数据集为例： d={ ‘A’：[100200200400400]，‘B’：[1,2,2,4,5]， ‘C’：[‘2018-11-19’、‘2018-11-19’、‘2018-12-19’、‘2018-11-19’、‘2018-11-1

假设我有一个非常大的数据集，其中包含“N”行和“M”特征。我还有两个输入

“m”：定义要检查的要素数量（m）

“支持”=功能“m”子集的相同行/总行数。这基本上是考虑到功能“m”个数时相同行数的最小百分比

我需要返回“支持”值大于预定义值的功能组

例如，让我们以这个数据集为例：

d={
‘A’：[100200200400400]，‘B’：[1,2,2,4,5]，
‘C’：[‘2018-11-19’、‘2018-11-19’、‘2018-12-19’、‘2018-11-19’、‘2018-11-19’]
}
df=pd.DataFrame（数据=d）
A、B、C
0   100     1   2018-11-19
1   200     2   2018-11-19
2   200     2   2018-12-19
3   400     4   2018-11-19
4   400     5   2018-11-19

在上面的例子中，如果让我们这样说

“m”=2

“支持度”=0.4

然后，函数应同时返回['A'、'B]和['A'、'C']，因为这两个特性在一起考虑时，在总共5行中至少有2行相同（>=0.4）

我意识到一个简单的解决方案是比较“m”中所有“m”特征的组合，并检查相同行的百分比。然而，当特征的数量超过两位数后，这将变得非常复杂，特别是在数千行的情况下。解决此问题的优化代码是什么？

欢迎使用所以：这个问题与机器学习无关——请不要发送不相关的标签（删除并替换为

熊猫

）。请记住，标签是关于问题的内容，而不是它的上下文。是的，会的！谢谢！事实上，我认为这与市场篮子分析高度相关，具体来说，可能值得研究欢迎这么做：问题与机器学习无关-请不要垃圾发送不相关的标签（删除并替换为

pandas

）。请记住，标记是关于问题的内容，而不是它的上下文。是的，可以！谢谢！事实上，我认为这与市场篮子分析高度相关，具体而言，这可能值得调查