Mongodb 为包含调查数据(有600列和800列)的大型SPSS文件创建整合数据存储的推荐方法是什么?

Mongodb 为包含调查数据(有600列和800列)的大型SPSS文件创建整合数据存储的推荐方法是什么?,mongodb,spss,survey,Mongodb,Spss,Survey,大家好,我只需要你们的建议,什么是存储从SPSS文件检索的数据并存储到Mongo db或RDBMS或任何其他文件的最佳方式。 数据包括对调查问卷的答复,根据受访者和调查研究记录的问题数量和其他属性,调查问卷最多可跨越大量栏(600-800)。此外,这些调查是定期进行的——但问题不一定完全相同——这些调查可能因调查而异 需要将这些数据整合到一个统一的结构中,并对跨越多个调查的整合数据进行进一步分析,计划再次使用SPSS 我考虑的一个选择是将数据存储在MongoDB中,因为这样就可以灵活地修改跨调查

大家好,我只需要你们的建议,什么是存储从SPSS文件检索的数据并存储到Mongo db或RDBMS或任何其他文件的最佳方式。 数据包括对调查问卷的答复,根据受访者和调查研究记录的问题数量和其他属性,调查问卷最多可跨越大量栏(600-800)。此外,这些调查是定期进行的——但问题不一定完全相同——这些调查可能因调查而异

需要将这些数据整合到一个统一的结构中,并对跨越多个调查的整合数据进行进一步分析,计划再次使用SPSS

我考虑的一个选择是将数据存储在MongoDB中,因为这样就可以灵活地修改跨调查的模式,即避免僵化的模式定义部分。然而,在这种情况下,我们不确定SPSS是否会支持针对Mongo的工作


如果你打算创造一个广义的工作,可以在类似的但不同的细节上进行调查的话,那么就要建立一个对人口、意见等变量的分类系统。经济等,并在创建sav文件时使用自定义属性指定这些属性。然后,您可以在通用作业中使用这些属性来确定基于泛型属性的操作,而不是将代码绑定到特定的变量名

您可以使用SPSSINC选择变量来根据变量属性(包括自定义属性)定义宏,然后在语法中使用这些宏来代替特定的变量名


我们已经看到,这样的方法可以显著减少组织必须维护的不同但相似的工作的数量。

可能的重复由于SPSS不需要将所有数据存储在ram中,因此通常不需要在后端使用数据库结构。你说的是多少调查?至于问题的变化,您将需要以某种方式规范化字段,以便最终在SPSS中进行数据分析,因此这是一个有点不同的关注点。据我所知,大多数机构的每套问题都有不同的平面文件(这几乎等同于传统的关系数据库)。非常感谢Andy w的快速回答。实际上我有大约30-40个SPSS文件。是的,你完全正确,我们以某种方式进行了规范化。嗨,JKP,非常感谢您的反馈。实际上,现在我正在考虑阅读SPSS,借助R检索有用的信息,如一个表中的问题和另一个表中的答案,如诸如此类..并存储到Oracle或Mongodb中?您能告诉我这是正确的方法吗?如果可能,请按照您的建议执行经验。我不清楚你到底想做什么。您可以使用Python或R读取包含元数据的数据文件,尽管pythonapi有更多的功能。您可能会发现另一个有用的扩展命令是GATHERMD。它对一组文件和目录采用通配符规范,并构建一个包含所有变量名、文件名和选定自定义属性的数据集,然后您可以将这些属性用于索引或其他目的。除了sav文件外,它还支持SAS和Stata文件。嗨,JKP..如果可能的话,我们可以进行一对一邮件讨论吗?或者告诉我如何与您进行私人讨论我的电子邮件正在攻击我们。ibm.comI这样写可能会稍微减少垃圾邮件发送者扫描的次数。