Postgresql 查询大火花结果的最佳实践是什么?

Postgresql 查询大火花结果的最佳实践是什么?,postgresql,apache-spark,apache-spark-mllib,recommendation-engine,bigdata,Postgresql,Apache Spark,Apache Spark Mllib,Recommendation Engine,Bigdata,我正试图为一家网上商店建立一个推荐引擎,里面有大约50000篇文章。我使用ApacheSpark创建了频繁使用的项目集和规则 我的第一次尝试是将数据(65G行)作为数组放入数据库(PostgreSQL),使用gin索引,性能应该是正常的。但当行数很高时,查询需要几分钟。低剂量需要ms 查询big Spark结果的最佳实践是什么?6500万行没有那么多。它如何转化为内存使用?它应该很容易在内存中处理。我投票关闭它,因为它看起来像一个没有实际问题要解决的家庭作业,而且描述也不清楚。你觉得@zero3

我正试图为一家网上商店建立一个推荐引擎,里面有大约50000篇文章。我使用ApacheSpark创建了频繁使用的项目集和规则

我的第一次尝试是将数据(65G行)作为数组放入数据库(PostgreSQL),使用gin索引,性能应该是正常的。但当行数很高时,查询需要几分钟。低剂量需要ms


查询big Spark结果的最佳实践是什么?

6500万行没有那么多。它如何转化为内存使用?它应该很容易在内存中处理。我投票关闭它,因为它看起来像一个没有实际问题要解决的家庭作业,而且描述也不清楚。你觉得@zero323如何?@eliasah我想你是对的,但我稍后会尝试回头看看它是否有所改进。Sry、打字错误,我是说65G行或4,7GB,这是一个小德语版本。这是CSV的大小,这是FP增长的结果。这只是一个高支持度的测试。Itemsets和Itemrules项目集和Itemrules在较低的支持下变得更有趣,但是当我无法处理这4,7GB时,我应该如何处理100GB?这是正确的方法——将结果放入数据库还是我完全错了?