Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 如何查找至少有X个百分比的行具有相同值的列/要素?[Python]_Python 3.x_Pandas - Fatal编程技术网

Python 3.x 如何查找至少有X个百分比的行具有相同值的列/要素?[Python]

Python 3.x 如何查找至少有X个百分比的行具有相同值的列/要素?[Python],python-3.x,pandas,Python 3.x,Pandas,假设我有一个非常大的数据集,其中包含“N”行和“M”特征。我还有两个输入 “m”:定义要检查的要素数量(m) “支持”=功能“m”子集的相同行/总行数。这基本上是考虑到功能“m”个数时相同行数的最小百分比 我需要返回“支持”值大于预定义值的功能组 例如,让我们以这个数据集为例: d={ ‘A’:[100200200400400],‘B’:[1,2,2,4,5], ‘C’:[‘2018-11-19’、‘2018-11-19’、‘2018-12-19’、‘2018-11-19’、‘2018-11-1

假设我有一个非常大的数据集,其中包含“N”行和“M”特征。我还有两个输入

  • “m”:定义要检查的要素数量(m)
  • “支持”=功能“m”子集的相同行/总行数。这基本上是考虑到功能“m”个数时相同行数的最小百分比
  • 我需要返回“支持”值大于预定义值的功能组

    例如,让我们以这个数据集为例:

    d={
    ‘A’:[100200200400400],‘B’:[1,2,2,4,5],
    ‘C’:[‘2018-11-19’、‘2018-11-19’、‘2018-12-19’、‘2018-11-19’、‘2018-11-19’]
    }
    df=pd.DataFrame(数据=d)
    A、B、C
    0   100     1   2018-11-19
    1   200     2   2018-11-19
    2   200     2   2018-12-19
    3   400     4   2018-11-19
    4   400     5   2018-11-19
    

    在上面的例子中,如果让我们这样说

    “m”=2

    “支持度”=0.4

    然后,函数应同时返回['A'、'B]和['A'、'C'],因为这两个特性在一起考虑时,在总共5行中至少有2行相同(>=0.4)


    我意识到一个简单的解决方案是比较“m”中所有“m”特征的组合,并检查相同行的百分比。然而,当特征的数量超过两位数后,这将变得非常复杂,特别是在数千行的情况下。解决此问题的优化代码是什么?

    欢迎使用所以:这个问题与机器学习无关——请不要发送不相关的标签(删除并替换为
    熊猫
    )。请记住,标签是关于问题的内容,而不是它的上下文。是的,会的!谢谢!事实上,我认为这与市场篮子分析高度相关,具体来说,可能值得研究欢迎这么做:问题与机器学习无关-请不要垃圾发送不相关的标签(删除并替换为
    pandas
    )。请记住,标记是关于问题的内容,而不是它的上下文。是的,可以!谢谢!事实上,我认为这与市场篮子分析高度相关,具体而言,这可能值得调查