Apache spark 如何使用ApacheSpark构建实时推荐系统?
到目前为止,我所能找到的只是一些推荐引擎,它们基于csv文件作为数据集构建和部署内存中的所有内容,因此if每天大约有1M的数据和3700个用户。 就我而言,我的公司有大约100万个活动项目,每天约4000个活动用户(平均),每周约450万次页面访问(平均) 在内存中构建、训练和推荐项目的想法太糟糕了,所以我想构建一个推荐引擎,但有点实时!怎样?这就是我要寻找的,可能是训练数据并将其部署到索引器,如elasticsearch或类似于recommand items的东西Apache spark 如何使用ApacheSpark构建实时推荐系统?,apache-spark,real-time,recommendation-engine,Apache Spark,Real Time,Recommendation Engine,到目前为止,我所能找到的只是一些推荐引擎,它们基于csv文件作为数据集构建和部署内存中的所有内容,因此if每天大约有1M的数据和3700个用户。 就我而言,我的公司有大约100万个活动项目,每天约4000个活动用户(平均),每周约450万次页面访问(平均) 在内存中构建、训练和推荐项目的想法太糟糕了,所以我想构建一个推荐引擎,但有点实时!怎样?这就是我要寻找的,可能是训练数据并将其部署到索引器,如elasticsearch或类似于recommand items的东西 > < P> >我很少考虑
> < P> >我很少考虑这样做。
- 使用机器学习从项目中提取特征,可能会再次对其进行训练
- 分析这些项目的使用行为,包括点击流
- 使用A-B测试验证算法
- 使用火花流