Statistics Python多元分析？-要从3.6M记录集中3-10个记录对生成唯一ID？_Statistics_Data Mining_Python 2.7_Mysql Python_Multivariate Testing

Statistics Python多元分析？-要从3.6M记录集中3-10个记录对生成唯一ID？

statistics python-2.7

Statistics Python多元分析？-要从3.6M记录集中3-10个记录对生成唯一ID？,statistics,data-mining,python-2.7,mysql-python,multivariate-testing,Statistics,Data Mining,Python 2.7,Mysql Python,Multivariate Testing,我是数据挖掘新手，对统计数据和python比较熟悉在mysql数据库中，我们有来自某个政府机构的case\u报告表，其中我们有一个或多个id：case，理论上，他们说病例是唯一的，但可以有多个病例字段：id，其他行字段中的数据非常相似，但不完全不同，如日期(rcvd）、年龄、剂量、体重、年龄、给药途径、提交类型等 THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT | id = 55 | case = 1 | a

我是数据挖掘新手，对统计数据和python比较熟悉

在mysql数据库中，我们有来自某个政府机构的

case\u报告

表，其中我们有一个或多个

id

：

case

，理论上，他们说

病例

是唯一的，但可以有多个

病例

字段：

id

，其他行字段中的数据非常相似，但不完全不同，如

日期(rcvd）、年龄、剂量、体重、年龄、给药途径、提交类型等

       THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT

  | id = 55 | case = 1 | age = 20 | source = x    | drug = az | date = p
  | id = 12 | case = 1 | age = null | source = y    | drug = az | date = q
  | id = 11 | case = 1 | age = 20 | source = null | null      | date = g
  | id = 15 | case = 1 | age = 20 | source = z    | drug = z  | date = m


                        THE PROBLEM SET EXAMPLE FOR ONE PATIENT

  | id = 55 | case = 1 | age = 20   | source = x       | drug = az    | date = p
  | id = 12 | case = 2 | age = 20   | source = y    | drug = az     | date = q
  | id = 55 | case = 1 | age = 20   | source = null   | null         | date = g
  | id = 55 | case = 1 | age = null | source = x    | drug = az   | date = null

我们只是希望能够通过某种聚类方法，通过一个唯一的_id进行分组，因此我们最终得到一个结果，而不是一个案例id查询中的4个。我可以使用大约12个其他字段进行匹配

病例

=假定是唯一的患者病例rpt，并且可以随着病例的发展和记录而进行。

id

=参数\u id链接到与该

案例相关的其他表格

理论上，“他们”说这些多个

case

记录应该至少有一个不同的

id

编号，但如果没有，则“只需将

id

与最新的

process\u date

一起使用，并使用该编号和

DELETE id，case案例`“”-不令人放心：该案例可能来自不同的报告源，电子提交的重复提交以及备份邮件报告，或者反映了该id:case的来自不同报告源的后续案例报告
我在想某种k-均值聚类方法
任何资源、代码示例链接、开始的策略都是值得赞赏的，通常不能仅仅从寻找一种方法开始就神奇地期待整个答案
我已经形成了我的无效假设，案例
是几个id
所独有的，并且定义了问题并收集了数据，证明了我的无效假设，即许多独特的id
链接到许多独特的id
，这是他们过时的、资金不足的处理/报告系统的一个公认缺陷。数据是-专有的，或者我不同意更多
**UPDATED EXAMPLE DATA @idris IGNORE ABOVE EXAMPLE**

+---------+---------+----------+----------+----------+----------+----+-----+----------+
| id      | case    | date     | rept_dt  | mfr_dt   | foll_seq | wt | age | gndr_cod |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
| 4610164 | 3118662 | 20050314 | 20050311 | 20050301 | 2        |  0 |  51 | M        |
| 4622120 | 3118662 | 20050322 | 20050321 | 20050314 | 3        |  0 |  0  | M        |
| 4622120 | 3118662 | 20050329 | 20050325 | 20050314 |          |  0 |  51 | M        |
| 4802410 | 3118662 | 20051013 | 20051012 | 20051004 | 5        |  0 |  51 | M        |
+---------+---------+----------+----------+----------+----------+----+-----+----------+

最好的
科林
你能发布一些有代表性的样本数据吗？@idris看到更新的数据，与上面的不太相似，如果你需要更多，请告诉我。我会悬赏的。