将嵌套字典/xml转换为sqlite的平面文件

将嵌套字典/xml转换为sqlite的平面文件,sqlite,nested,normalization,dictionary,biopython,Sqlite,Nested,Normalization,Dictionary,Biopython,我搜遍了网络,似乎找不到合适的例子,所以我想我会问。。。 顺便说一句,这些对我来说都是新鲜事——不是全部,只是大部分 问题:试图将bio/python嵌套字典或pubmed引文数据的xml转换为平面规范化结构,例如sqlite。引文数据是使用biopython从pubmed获取的,并被解析到字典中,但如果需要,也可以作为xml检索 并非所有引用都具有所有字段/键,并且并非所有字段/键都具有相同数量的项目作者、网格术语、引用等。。。并理解这是正常化过程的一部分 这就是我实际理解的终点 这就是说,我

我搜遍了网络,似乎找不到合适的例子,所以我想我会问。。。 顺便说一句,这些对我来说都是新鲜事——不是全部,只是大部分

问题:试图将bio/python嵌套字典或pubmed引文数据的xml转换为平面规范化结构,例如sqlite。引文数据是使用biopython从pubmed获取的,并被解析到字典中,但如果需要,也可以作为xml检索

并非所有引用都具有所有字段/键,并且并非所有字段/键都具有相同数量的项目作者、网格术语、引用等。。。并理解这是正常化过程的一部分

这就是我实际理解的终点

这就是说,我认为这个过程应该是这样的:首先删除/规范所有独特的字段,即每篇论文有1个字段的字段,如标题、摘要、日期、引用等,但不要说从属关系,因为这将与第一作者相关联。没有摘要的论文可以填写为空

然后继续,比如说,作者,再次使用PMID作为fk创建一个单独的表,然后对单独表中的各种其他字段/键/项执行相同的操作,例如网格标题、EC编号、ref等

有没有办法去除持久性有机污染物?主词典中的键/项,以便我可以直观地看到在离开PMID时已经做了什么/需要做什么

再次,如果我向发起人提出了一个显而易见的问题,请提前道歉——我确实理解,你不能将嵌套结构放在一个平面空间中——只是寻找一种最简单的方法来解决这个问题,希望这种方法能让我确保所有东西都被正确捕获

非常感谢,,
chris

一个简单的问题-如果您已经有XML格式的数据,为什么要将其规范化为SQL格式?为什么不直接使用原始XML呢?是一个类似SQLite的库,链接到您的应用程序中。没有要安装或维护的单独服务器。该库允许您使用存储和查询XML数据。它速度很快,占地面积很小。具有事务性、可恢复性和高度可靠性。如果需要的话,它还具有HA特性


将数据保存在XML中可以简化整个数据导入过程,并且仍然允许查询半结构化数据

一个简单的问题-如果您已经有XML格式的数据,为什么要将其规范化为SQL格式?为什么不直接使用原始XML呢?是一个类似SQLite的库,链接到您的应用程序中。没有要安装或维护的单独服务器。该库允许您使用存储和查询XML数据。它速度很快,占地面积很小。具有事务性、可恢复性和高度可靠性。如果需要的话,它还具有HA特性

将数据保存在XML中可以简化整个数据导入过程,并且仍然允许查询半结构化数据