Statistics Python多元分析?-要从3.6M记录集中3-10个记录对生成唯一ID?

Statistics Python多元分析?-要从3.6M记录集中3-10个记录对生成唯一ID?,statistics,data-mining,python-2.7,mysql-python,multivariate-testing,Statistics,Data Mining,Python 2.7,Mysql Python,Multivariate Testing,我是数据挖掘新手,对统计数据和python比较熟悉 在mysql数据库中,我们有来自某个政府机构的case\u报告表,其中我们有一个或多个id:case,理论上,他们说病例是唯一的,但可以有多个病例字段:id,其他行字段中的数据非常相似,但不完全不同,如日期(rcvd)、年龄、剂量、体重、年龄、给药途径、提交类型等 THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT | id = 55 | case = 1 | a

我是数据挖掘新手,对统计数据和python比较熟悉

在mysql数据库中,我们有来自某个政府机构的
case\u报告
表,其中我们有一个或多个
id
case
,理论上,他们说
病例
是唯一的,但可以有多个
病例
字段:
id
,其他行字段中的数据非常相似,但不完全不同,如
日期(rcvd)、年龄、剂量、体重、年龄、给药途径、提交类型等

       THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT

  | id = 55 | case = 1 | age = 20 | source = x    | drug = az | date = p
  | id = 12 | case = 1 | age = null | source = y    | drug = az | date = q
  | id = 11 | case = 1 | age = 20 | source = null | null      | date = g
  | id = 15 | case = 1 | age = 20 | source = z    | drug = z  | date = m


                        THE PROBLEM SET EXAMPLE FOR ONE PATIENT

  | id = 55 | case = 1 | age = 20   | source = x       | drug = az    | date = p
  | id = 12 | case = 2 | age = 20   | source = y    | drug = az     | date = q
  | id = 55 | case = 1 | age = 20   | source = null   | null         | date = g
  | id = 55 | case = 1 | age = null | source = x    | drug = az   | date = null
我们只是希望能够通过某种聚类方法,通过一个唯一的_id进行分组,因此我们最终得到一个结果,而不是一个案例id查询中的4个。我可以使用大约12个其他字段进行匹配

病例
=假定是唯一的患者病例rpt,并且可以随着病例的发展和记录而进行。
id
=参数\u id链接到与该
案例相关的其他表格

理论上,“他们”说这些多个
case
记录应该至少有一个不同的
id
编号,但如果没有,则“只需将
id
与最新的
process\u date
一起使用,并使用该编号和
DELETE id,case案例`“”-不令人放心:该案例可能来自不同的报告源,电子提交的重复提交以及备份邮件报告,或者反映了该id:case的来自不同报告源的后续案例报告

我在想某种k-均值聚类方法

任何资源、代码示例链接、开始的策略都是值得赞赏的,通常不能仅仅从寻找一种方法开始就神奇地期待整个答案

我已经形成了我的无效假设,
案例
是几个
id
所独有的,并且定义了问题并收集了数据,证明了我的无效假设,即许多独特的
id
链接到许多独特的
id
,这是他们过时的、资金不足的处理/报告系统的一个公认缺陷。数据是-专有的,或者我不同意更多

**UPDATED EXAMPLE DATA @idris IGNORE ABOVE EXAMPLE**

+---------+---------+----------+----------+----------+----------+----+-----+----------+
| id      | case    | date     | rept_dt  | mfr_dt   | foll_seq | wt | age | gndr_cod |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
| 4610164 | 3118662 | 20050314 | 20050311 | 20050301 | 2        |  0 |  51 | M        |
| 4622120 | 3118662 | 20050322 | 20050321 | 20050314 | 3        |  0 |  0  | M        |
| 4622120 | 3118662 | 20050329 | 20050325 | 20050314 |          |  0 |  51 | M        |
| 4802410 | 3118662 | 20051013 | 20051012 | 20051004 | 5        |  0 |  51 | M        |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
最好的


科林

你能发布一些有代表性的样本数据吗?@idris看到更新的数据,与上面的不太相似,如果你需要更多,请告诉我。我会悬赏的。