将嵌套字典/xml转换为sqlite的平面文件_Sqlite_Nested_Normalization_Dictionary_Biopython

将嵌套字典/xml转换为sqlite的平面文件

sqlite dictionary

将嵌套字典/xml转换为sqlite的平面文件,sqlite,nested,normalization,dictionary,biopython,Sqlite,Nested,Normalization,Dictionary,Biopython,我搜遍了网络，似乎找不到合适的例子，所以我想我会问。。。顺便说一句，这些对我来说都是新鲜事——不是全部，只是大部分问题：试图将bio/python嵌套字典或pubmed引文数据的xml转换为平面规范化结构，例如sqlite。引文数据是使用biopython从pubmed获取的，并被解析到字典中，但如果需要，也可以作为xml检索并非所有引用都具有所有字段/键，并且并非所有字段/键都具有相同数量的项目作者、网格术语、引用等。。。并理解这是正常化过程的一部分这就是我实际理解的终点这就是说，我

我搜遍了网络，似乎找不到合适的例子，所以我想我会问。。。顺便说一句，这些对我来说都是新鲜事——不是全部，只是大部分

问题：试图将bio/python嵌套字典或pubmed引文数据的xml转换为平面规范化结构，例如sqlite。引文数据是使用biopython从pubmed获取的，并被解析到字典中，但如果需要，也可以作为xml检索

并非所有引用都具有所有字段/键，并且并非所有字段/键都具有相同数量的项目作者、网格术语、引用等。。。并理解这是正常化过程的一部分

这就是我实际理解的终点

这就是说，我认为这个过程应该是这样的：首先删除/规范所有独特的字段，即每篇论文有1个字段的字段，如标题、摘要、日期、引用等，但不要说从属关系，因为这将与第一作者相关联。没有摘要的论文可以填写为空

然后继续，比如说，作者，再次使用PMID作为fk创建一个单独的表，然后对单独表中的各种其他字段/键/项执行相同的操作，例如网格标题、EC编号、ref等

有没有办法去除持久性有机污染物？主词典中的键/项，以便我可以直观地看到在离开PMID时已经做了什么/需要做什么

再次，如果我向发起人提出了一个显而易见的问题，请提前道歉——我确实理解，你不能将嵌套结构放在一个平面空间中——只是寻找一种最简单的方法来解决这个问题，希望这种方法能让我确保所有东西都被正确捕获

非常感谢,，

chris

一个简单的问题-如果您已经有XML格式的数据，为什么要将其规范化为SQL格式？为什么不直接使用原始XML呢？是一个类似SQLite的库，链接到您的应用程序中。没有要安装或维护的单独服务器。该库允许您使用存储和查询XML数据。它速度很快，占地面积很小。具有事务性、可恢复性和高度可靠性。如果需要的话，它还具有HA特性

将数据保存在XML中可以简化整个数据导入过程，并且仍然允许查询半结构化数据