Postgresql 查询大火花结果的最佳实践是什么？_Postgresql_Apache Spark_Apache Spark Mllib_Recommendation Engine_Bigdata

Postgresql 查询大火花结果的最佳实践是什么？

postgresql apache-spark

Postgresql 查询大火花结果的最佳实践是什么？,postgresql,apache-spark,apache-spark-mllib,recommendation-engine,bigdata,Postgresql,Apache Spark,Apache Spark Mllib,Recommendation Engine,Bigdata,我正试图为一家网上商店建立一个推荐引擎，里面有大约50000篇文章。我使用ApacheSpark创建了频繁使用的项目集和规则我的第一次尝试是将数据（65G行）作为数组放入数据库（PostgreSQL），使用gin索引，性能应该是正常的。但当行数很高时，查询需要几分钟。低剂量需要ms 查询big Spark结果的最佳实践是什么？6500万行没有那么多。它如何转化为内存使用？它应该很容易在内存中处理。我投票关闭它，因为它看起来像一个没有实际问题要解决的家庭作业，而且描述也不清楚。你觉得@zero3

我正试图为一家网上商店建立一个推荐引擎，里面有大约50000篇文章。我使用ApacheSpark创建了频繁使用的项目集和规则

我的第一次尝试是将数据（65G行）作为数组放入数据库（PostgreSQL），使用gin索引，性能应该是正常的。但当行数很高时，查询需要几分钟。低剂量需要ms

查询big Spark结果的最佳实践是什么？

6500万行没有那么多。它如何转化为内存使用？它应该很容易在内存中处理。我投票关闭它，因为它看起来像一个没有实际问题要解决的家庭作业，而且描述也不清楚。你觉得@zero323如何？@eliasah我想你是对的，但我稍后会尝试回头看看它是否有所改进。Sry、打字错误，我是说65G行或4,7GB，这是一个小德语版本。这是CSV的大小，这是FP增长的结果。这只是一个高支持度的测试。Itemsets和Itemrules项目集和Itemrules在较低的支持下变得更有趣，但是当我无法处理这4,7GB时，我应该如何处理100GB？这是正确的方法——将结果放入数据库还是我完全错了？