Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby-on-rails-4/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在pyspark 2.1.1中,广播(ASLModel)会加速转换吗?_Pyspark_Apache Spark Mllib_Recommendation Engine_Apache Spark 2.1.1 - Fatal编程技术网

在pyspark 2.1.1中,广播(ASLModel)会加速转换吗?

在pyspark 2.1.1中,广播(ASLModel)会加速转换吗?,pyspark,apache-spark-mllib,recommendation-engine,apache-spark-2.1.1,Pyspark,Apache Spark Mllib,Recommendation Engine,Apache Spark 2.1.1,在我的Pypark脚本中,我是 正在加载所有用户(约1700万) 装载所有物品(约60000件) 通过保存的StringIndexerModel运行项 加载模型并进行转换 indexer\u model.transform(items)花费的时间太长,有时长达一个多小时 我的问题是: 可以广播StrngIndexerModel以加快进程吗 可以广播als_模型以加快转换阶段吗 仅供参考,我正在使用pyspark 2.1.1 user_id_df = user_item_matrix.sele

在我的Pypark脚本中,我是

  • 正在加载所有用户(约1700万)
  • 装载所有物品(约60000件)
  • 通过保存的StringIndexerModel运行项
  • 加载模型并进行转换
  • indexer\u model.transform(items)
    花费的时间太长,有时长达一个多小时

    我的问题是:

    • 可以广播StrngIndexerModel以加快进程吗
    • 可以广播als_模型以加快转换阶段吗
    仅供参考,我正在使用pyspark 2.1.1

    user_id_df = user_item_matrix.select('userid').distinct().repartition(3600)
    items = items_info_df.select('item_id')
    
    indexer_model=StringIndexerModel.load(indexer_model_path)
    items_indexed = indexer_model.transform(items)
    userid_itemid_cross = broadcast(items_indexed).crossJoin(user_id_df)
    
    als_model = ALSModel.load(model_path)
    recommendations_df = als_model.transform(userid_itemid_cross)