Vowpalwabbit 上下文强盗问题中的(Vowpal-Wabbit)cb模式

Vowpalwabbit 上下文强盗问题中的(Vowpal-Wabbit)cb模式,vowpalwabbit,Vowpalwabbit,我有两个关于在Vowpal Wabbit中使用上下文bandit模式的快速问题 1) --cb模式是否输出确定性策略,该策略贪婪地选择给定训练数据集学习到的最佳动作?因此,选择动作的概率为1,其他所有动作的概率为0 2) 我想知道--cb_explore政策学习过程背后的理论背景是什么。我知道-cb的政策学习过程来自。--cbu explore是否使用相同的过程?既然--cbu explore基本上是一个非固定策略,我认为它应该使用不同的过程。快速回答: 从根本上说,是的,在特定的环境下,具有最

我有两个关于在Vowpal Wabbit中使用上下文bandit模式的快速问题

1)
--cb
模式是否输出确定性策略,该策略贪婪地选择给定训练数据集学习到的最佳动作?因此,选择动作的概率为1,其他所有动作的概率为0

2) 我想知道
--cb_explore
政策学习过程背后的理论背景是什么。我知道
-cb
的政策学习过程来自。
--cbu explore
是否使用相同的过程?既然
--cbu explore
基本上是一个非固定策略,我认为它应该使用不同的过程。

快速回答:
  • 从根本上说,是的,在特定的环境下,具有最佳(已知)回报的行动获胜。但是请注意,使用
    --cb
    进行学习也支持
    --epsilon
    epsilon greedy探索算法)。在第一次学习期间,部分动作空间被用于进一步探索(而不是纯粹贪婪地利用已知的东西)
  • 根据命令行选项,支持多种探索与利用算法以及每个算法的一些进一步的超参数
  • 更详细的答案来源于 注:vowpalwabbit.org是一个很好的资源,可以在
    vw
    中获得更多关于背景土匪的信息

    Vowpal Wabbit支持三(3)种基于上下文的bandit算法:

  • --cb
    上下文盗贼模块,允许您根据已收集的数据或上下文盗贼优化预测,而无需探索
  • --cb_探索
    上下文bandit学习算法,以确定何时提前知道最大动作数,并且动作语义在所有示例中保持不变
  • --cb_explore_adf
    当动作集随时间变化或您拥有每个动作的丰富信息时,上下文bandit学习算法。Vowpal Wabbit为上下文盗贼提供了不同的输入格式
  • 当探索生效时,Vowpal Wabbit提供五(5)种探索算法:

    • 先探索:
      --先探索
    • ε贪婪:
      --Epsilon
    • 装袋浏览器:
      --装袋
    • 在线封面:
      --封面
    • Softmax Explorer:
      --Softmax
      (仅支持
      --cb\U explore\U adf
    工作示例,包括:

    • 完整命令行
    • 输入数据
    • 预期产量
    对于每个选项,都可以在文件的源代码树中找到,向下滚动到
    \uuuuu DATA\uuuu
    部分可以找到许多命令示例。

    快速答案:
  • 从根本上说,是的,在特定的环境下,具有最佳(已知)回报的行动获胜。但是请注意,使用
    --cb
    进行学习也支持
    --epsilon
    epsilon greedy探索算法)。在第一次学习期间,部分动作空间被用于进一步探索(而不是纯粹贪婪地利用已知的东西)
  • 根据命令行选项,支持多种探索与利用算法以及每个算法的一些进一步的超参数
  • 更详细的答案来源于 注:vowpalwabbit.org是一个很好的资源,可以在
    vw
    中获得更多关于背景土匪的信息

    Vowpal Wabbit支持三(3)种基于上下文的bandit算法:

  • --cb
    上下文盗贼模块,允许您根据已收集的数据或上下文盗贼优化预测,而无需探索
  • --cb_探索
    上下文bandit学习算法,以确定何时提前知道最大动作数,并且动作语义在所有示例中保持不变
  • --cb_explore_adf
    当动作集随时间变化或您拥有每个动作的丰富信息时,上下文bandit学习算法。Vowpal Wabbit为上下文盗贼提供了不同的输入格式
  • 当探索生效时,Vowpal Wabbit提供五(5)种探索算法:

    • 先探索:
      --先探索
    • ε贪婪:
      --Epsilon
    • 装袋浏览器:
      --装袋
    • 在线封面:
      --封面
    • Softmax Explorer:
      --Softmax
      (仅支持
      --cb\U explore\U adf
    工作示例,包括:

    • 完整命令行
    • 输入数据
    • 预期产量

    对于每个选项,都可以在文件的源代码树中找到,向下滚动到
    \uuuuu DATA\uuuu
    部分以查找许多命令示例。

    什么是-cb的基线学习器?对vw.learn()的每次调用都必须获得一些F(上下文,动作)=奖励,并选择奖励最大的动作作为推荐。但是在训练期间,“F”默认值是什么(线性、神经网络、树等)?cb的基线学习者是什么?对vw.learn()的每次调用都必须获得一些F(上下文,动作)=奖励,并选择奖励最大的动作作为推荐。但在训练过程中,“F”默认值是什么(线性、神经网络、树等)?