Statistics Python多元分析?-要从3.6M记录集中3-10个记录对生成唯一ID?
我是数据挖掘新手,对统计数据和python比较熟悉 在mysql数据库中,我们有来自某个政府机构的Statistics Python多元分析?-要从3.6M记录集中3-10个记录对生成唯一ID?,statistics,data-mining,python-2.7,mysql-python,multivariate-testing,Statistics,Data Mining,Python 2.7,Mysql Python,Multivariate Testing,我是数据挖掘新手,对统计数据和python比较熟悉 在mysql数据库中,我们有来自某个政府机构的case\u报告表,其中我们有一个或多个id:case,理论上,他们说病例是唯一的,但可以有多个病例字段:id,其他行字段中的数据非常相似,但不完全不同,如日期(rcvd)、年龄、剂量、体重、年龄、给药途径、提交类型等 THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT | id = 55 | case = 1 | a
case\u报告
表,其中我们有一个或多个id
:case
,理论上,他们说病例
是唯一的,但可以有多个病例
字段:id
,其他行字段中的数据非常相似,但不完全不同,如日期(rcvd)、年龄、剂量、体重、年龄、给药途径、提交类型等
THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT
| id = 55 | case = 1 | age = 20 | source = x | drug = az | date = p
| id = 12 | case = 1 | age = null | source = y | drug = az | date = q
| id = 11 | case = 1 | age = 20 | source = null | null | date = g
| id = 15 | case = 1 | age = 20 | source = z | drug = z | date = m
THE PROBLEM SET EXAMPLE FOR ONE PATIENT
| id = 55 | case = 1 | age = 20 | source = x | drug = az | date = p
| id = 12 | case = 2 | age = 20 | source = y | drug = az | date = q
| id = 55 | case = 1 | age = 20 | source = null | null | date = g
| id = 55 | case = 1 | age = null | source = x | drug = az | date = null
我们只是希望能够通过某种聚类方法,通过一个唯一的_id进行分组,因此我们最终得到一个结果,而不是一个案例id查询中的4个。我可以使用大约12个其他字段进行匹配
病例
=假定是唯一的患者病例rpt,并且可以随着病例的发展和记录而进行。
id
=参数\u id链接到与该案例相关的其他表格
理论上,“他们”说这些多个case
记录应该至少有一个不同的id
编号,但如果没有,则“只需将id
与最新的process\u date
一起使用,并使用该编号和DELETE id,case案例`“”-不令人放心:该案例可能来自不同的报告源,电子提交的重复提交以及备份邮件报告,或者反映了该id:case的来自不同报告源的后续案例报告
我在想某种k-均值聚类方法
任何资源、代码示例链接、开始的策略都是值得赞赏的,通常不能仅仅从寻找一种方法开始就神奇地期待整个答案
我已经形成了我的无效假设,案例
是几个id
所独有的,并且定义了问题并收集了数据,证明了我的无效假设,即许多独特的id
链接到许多独特的id
,这是他们过时的、资金不足的处理/报告系统的一个公认缺陷。数据是-专有的,或者我不同意更多
**UPDATED EXAMPLE DATA @idris IGNORE ABOVE EXAMPLE**
+---------+---------+----------+----------+----------+----------+----+-----+----------+
| id | case | date | rept_dt | mfr_dt | foll_seq | wt | age | gndr_cod |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
| 4610164 | 3118662 | 20050314 | 20050311 | 20050301 | 2 | 0 | 51 | M |
| 4622120 | 3118662 | 20050322 | 20050321 | 20050314 | 3 | 0 | 0 | M |
| 4622120 | 3118662 | 20050329 | 20050325 | 20050314 | | 0 | 51 | M |
| 4802410 | 3118662 | 20051013 | 20051012 | 20051004 | 5 | 0 | 51 | M |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
最好的
科林你能发布一些有代表性的样本数据吗?@idris看到更新的数据,与上面的不太相似,如果你需要更多,请告诉我。我会悬赏的。