Database “参数化”数据库模型和后端存储系统以及数据挖掘操作

Database “参数化”数据库模型和后端存储系统以及数据挖掘操作,database,algorithm,architecture,data-structures,Database,Algorithm,Architecture,Data Structures,我已经含蓄地把它变成了一个社区维基,因为答案可以非常广泛。 我正在一家初创公司工作,以实现以下目标 在医学研究中,患者病历可以有无限量的关于特定诊断患者的数据,例如,吸烟者患肺癌的几率更高,但这并不一定意味着非吸烟者可以患肺癌。我的目标是创建/使用能够处理此类参数的数据库模型 现在,我还必须想办法对这些参数化数据进行数据挖掘,以创建统计数据,例如查看所有患有肺癌的40岁女性的趋势。该报告可以是通用的、图形的、表格的等,医生可以看到趋势或分析可能有效的解决方案 我的问题是: 1哪些数据库系统允许参

我已经含蓄地把它变成了一个社区维基,因为答案可以非常广泛。 我正在一家初创公司工作,以实现以下目标

在医学研究中,患者病历可以有无限量的关于特定诊断患者的数据,例如,吸烟者患肺癌的几率更高,但这并不一定意味着非吸烟者可以患肺癌。我的目标是创建/使用能够处理此类参数的数据库模型

现在,我还必须想办法对这些参数化数据进行数据挖掘,以创建统计数据,例如查看所有患有肺癌的40岁女性的趋势。该报告可以是通用的、图形的、表格的等,医生可以看到趋势或分析可能有效的解决方案

我的问题是: 1哪些数据库系统允许参数化后端存储,例如可以在java中轻松使用的Cassandra,并且在数据检索、链接等方面非常高效。我们正在处理每个州的大量患者记录

2我可以使用哪些算法或AI技术进行数据挖掘?有没有什么采矿技术可以帮我做到这一点

PS谷歌分析如何处理参数化数据? PPS参数化数据是具有键的数据,其中数据可以是值、另一个键值对、值列表、一组有组织、无组织的参数化数据


我期待着有启发性的答案!:-我试着只回答你的第一个问题

Cassandra是案例中的一个键值数据存储,已参数化。如果使用Cassandra,则需要更高的计算时间来生成复杂的报告。原因是-它以原始格式存储数据。如果您想扩展到非常大的规模,像Cassandra这样的NOSQL数据库是很好的。它们在数据复制和延迟方面存在缺陷和妥协


在您的情况下,患者可以拥有无限多种形式的数据,请尝试适合三层语义Web框架的模型,如Jena、OpenSesame等。它们允许您拥有糟糕的数据结构,并且可以在运行时成型。此外,他们的查询引擎SPARQL、SeRQL比NOSQL存储(如Cassandra)提供了更多的功能,但这些查询功能明显低于RDBMS。

我将尝试回答您的第一个问题

Cassandra是案例中的一个键值数据存储,已参数化。如果使用Cassandra,则需要更高的计算时间来生成复杂的报告。原因是-它以原始格式存储数据。如果您想扩展到非常大的规模,像Cassandra这样的NOSQL数据库是很好的。它们在数据复制和延迟方面存在缺陷和妥协


在您的情况下,患者可以拥有无限多种形式的数据,请尝试适合三层语义Web框架的模型,如Jena、OpenSesame等。它们允许您拥有糟糕的数据结构,并且可以在运行时成型。此外,他们的查询引擎SPARQL、SeRQL比NOSQL存储(如Cassandra)提供了更多的功能,但这些查询功能明显低于RDBMS。

对于这个问题,我们就是这样实现的

我们创建了一个名为medical的键空间和一个名为patient的超级列族

在supercolumn系列下,我们有一个基本上存储患者详细信息的通用超级列,还有另一个名为operation的超级列,用于记录用户职业

别忘了,当患者去看医生时,general supercolumn会记录患者的情况。这样,我们就可以准确地知道患者在手术前、手术中和手术后的确切情况

我知道有些数据可能是重复的,但没有一个超级列可以是完全相同的,因为不可能有两个完全不同的患者具有相同的属性和疾病

基本上,Cassandra允许3层抽象,键空间,列/超级列族,列/超级列


希望这能帮助一些人。

对于这个问题,我们就是这样实现的

我们创建了一个名为medical的键空间和一个名为patient的超级列族

在supercolumn系列下,我们有一个基本上存储患者详细信息的通用超级列,还有另一个名为operation的超级列,用于记录用户职业

别忘了,当患者去看医生时,general supercolumn会记录患者的情况。这样,我们就可以准确地知道患者在手术前、手术中和手术后的确切情况

我知道有些数据可能是重复的,但没有一个超级列可以是完全相同的,因为不可能有两个完全不同的患者具有相同的属性和疾病

基本上,Cassandra允许3层抽象,键空间,列/超级列族,列/超级列

希望这能帮助别人