Database design 设计非常大、低粒度数据库的提示/链接/书籍?
我公司的SAS程序员与研究人员一起分析存储在大量大小约为1Tb的文本文件中的数据。由此产生的SAS进程可能需要几天才能运行。只要研究人员想稍微改变一个问题,就必须重新运行这个过程,这需要更多的时间 SAS程序员向我们的DBA团队寻求一种存储数据的方法,目的是大大提高查询性能 两个主要困难是:Database design 设计非常大、低粒度数据库的提示/链接/书籍?,database-design,postgresql,data-mining,data-warehouse,Database Design,Postgresql,Data Mining,Data Warehouse,我公司的SAS程序员与研究人员一起分析存储在大量大小约为1Tb的文本文件中的数据。由此产生的SAS进程可能需要几天才能运行。只要研究人员想稍微改变一个问题,就必须重新运行这个过程,这需要更多的时间 SAS程序员向我们的DBA团队寻求一种存储数据的方法,目的是大大提高查询性能 两个主要困难是: 我们只有少数几个示例查询,并且没有特别典型的查询集 许多查询的形式如下 选择计数(不同id) 来自表t 其中a=真 b=3 和c(3至10) 但其中WHERE过滤器参数未知,可能包括列和属性的任意组合。这就
谢谢 我想发表评论以获得更多的澄清,但似乎我还不能! 比如
- 读取文本文件需要多长时间
- 是否可以发送和保存增量文本文件 维护一组SAS数据集,并将增量 数据
阅读拉尔夫·金博尔的《你能读的一切》 典型的查询(
从事实联接维度选择聚合,其中条件
)是星型模式的最佳选择
忘掉“数据挖掘”。这不是一个有用的术语
关注“星型模式”。构建正确的数据结构 你能描述一下每个分析背后的工作流程吗?你是否也测量了过程中哪一部分花费的时间最多?我同意,这是一本非常好的书。kindall也是“专业粒度”