在pyspark 2.1.1中,广播(ASLModel)会加速转换吗?
在我的Pypark脚本中,我是在pyspark 2.1.1中,广播(ASLModel)会加速转换吗?,pyspark,apache-spark-mllib,recommendation-engine,apache-spark-2.1.1,Pyspark,Apache Spark Mllib,Recommendation Engine,Apache Spark 2.1.1,在我的Pypark脚本中,我是 正在加载所有用户(约1700万) 装载所有物品(约60000件) 通过保存的StringIndexerModel运行项 加载模型并进行转换 indexer\u model.transform(items)花费的时间太长,有时长达一个多小时 我的问题是: 可以广播StrngIndexerModel以加快进程吗 可以广播als_模型以加快转换阶段吗 仅供参考,我正在使用pyspark 2.1.1 user_id_df = user_item_matrix.sele
indexer\u model.transform(items)
花费的时间太长,有时长达一个多小时
我的问题是:
- 可以广播StrngIndexerModel以加快进程吗
- 可以广播als_模型以加快转换阶段吗
user_id_df = user_item_matrix.select('userid').distinct().repartition(3600)
items = items_info_df.select('item_id')
indexer_model=StringIndexerModel.load(indexer_model_path)
items_indexed = indexer_model.transform(items)
userid_itemid_cross = broadcast(items_indexed).crossJoin(user_id_df)
als_model = ALSModel.load(model_path)
recommendations_df = als_model.transform(userid_itemid_cross)