Mysql 查找公共ID集以合并ID表

Mysql 查找公共ID集以合并ID表,mysql,data-structures,analytics,consolidation,Mysql,Data Structures,Analytics,Consolidation,我希望我能以一种可以理解的方式解释我的问题 我的身份证范围是1到9999 我还有一个表/数组列表(~500万行),每行包含可变数量的ID(1到9999) 不能添加两次ID 我想实现以下目标: 分析列表并找到一组“通用”ID 捆绑包应包含尽可能多的条目 然后,我可以为每个合适的行添加这个bundle ID,并删除bundle包含的所有ID 这基本上是一种整合?我可以这样称呼它吗 到目前为止,我想到的是: 我需要在之前创建某种捆绑模式(使用给定的ID范围) 然后搜索列表并检查哪个捆绑模式具

我希望我能以一种可以理解的方式解释我的问题

  • 我的身份证范围是1到9999
  • 我还有一个表/数组列表(~500万行),每行包含可变数量的ID(1到9999)
  • 不能添加两次ID
我想实现以下目标

  • 分析列表并找到一组“通用”ID
  • 捆绑包应包含尽可能多的条目
  • 然后,我可以为每个合适的行添加这个bundle ID,并删除bundle包含的所有ID
  • 这基本上是一种整合?我可以这样称呼它吗
到目前为止,我想到的是

  • 我需要在之前创建某种捆绑模式(使用给定的ID范围)
  • 然后搜索列表并检查哪个捆绑模式具有最多匹配项
好的,为了创建捆绑模式,我想我需要一些限制/要求。 身份证顺序不重要。 所有捆绑模式的固定条目数

我想我已经找到了如何计算所有可能的组合:

基于此,我得到了一些荒谬的大数字:

42969707775296826769896989703548099662094519625161197511205018519636749784324489328971381665723816568456409339133626911534792332455961361698866159100005276331813232549686151104140059140664837413962638605162001

即使我将bundle模式的条目数限制在10个左右,我也会得到数十亿个组合。
我不知道我是否在正确的轨道上,或者这个“整合”过程是否合理


非常感谢您的反馈和想法

每一行都包含一个可变数量的ID
这听起来不像RDBMS是实现这一点的合适工具。看看人们用什么做DNA分析,或者类似的东西。在数据库中,它实际上是另一个表,有一个BIGINT和一个INT列。DNA分析?好主意。从来没想过。