Vowpalwabbit 上下文强盗问题中的(Vowpal-Wabbit)cb模式
我有两个关于在Vowpal Wabbit中使用上下文bandit模式的快速问题 1)Vowpalwabbit 上下文强盗问题中的(Vowpal-Wabbit)cb模式,vowpalwabbit,Vowpalwabbit,我有两个关于在Vowpal Wabbit中使用上下文bandit模式的快速问题 1) --cb模式是否输出确定性策略,该策略贪婪地选择给定训练数据集学习到的最佳动作?因此,选择动作的概率为1,其他所有动作的概率为0 2) 我想知道--cb_explore政策学习过程背后的理论背景是什么。我知道-cb的政策学习过程来自。--cbu explore是否使用相同的过程?既然--cbu explore基本上是一个非固定策略,我认为它应该使用不同的过程。快速回答: 从根本上说,是的,在特定的环境下,具有最
--cb
模式是否输出确定性策略,该策略贪婪地选择给定训练数据集学习到的最佳动作?因此,选择动作的概率为1,其他所有动作的概率为0
2) 我想知道--cb_explore
政策学习过程背后的理论背景是什么。我知道-cb
的政策学习过程来自。--cbu explore
是否使用相同的过程?既然--cbu explore
基本上是一个非固定策略,我认为它应该使用不同的过程。快速回答:
--cb
进行学习也支持--epsilon
(epsilon greedy探索算法)。在第一次学习期间,部分动作空间被用于进一步探索(而不是纯粹贪婪地利用已知的东西)vw
中获得更多关于背景土匪的信息
Vowpal Wabbit支持三(3)种基于上下文的bandit算法:
--cb
上下文盗贼模块,允许您根据已收集的数据或上下文盗贼优化预测,而无需探索--cb_探索
上下文bandit学习算法,以确定何时提前知道最大动作数,并且动作语义在所有示例中保持不变--cb_explore_adf
当动作集随时间变化或您拥有每个动作的丰富信息时,上下文bandit学习算法。Vowpal Wabbit为上下文盗贼提供了不同的输入格式- 先探索:
--先探索
- ε贪婪:
--Epsilon
- 装袋浏览器:
--装袋
- 在线封面:
--封面
- Softmax Explorer:
(仅支持--Softmax
)--cb\U explore\U adf
- 完整命令行
- 输入数据
- 预期产量
\uuuuu DATA\uuuu
部分可以找到许多命令示例。快速答案:
--cb
进行学习也支持--epsilon
(epsilon greedy探索算法)。在第一次学习期间,部分动作空间被用于进一步探索(而不是纯粹贪婪地利用已知的东西)vw
中获得更多关于背景土匪的信息
Vowpal Wabbit支持三(3)种基于上下文的bandit算法:
--cb
上下文盗贼模块,允许您根据已收集的数据或上下文盗贼优化预测,而无需探索--cb_探索
上下文bandit学习算法,以确定何时提前知道最大动作数,并且动作语义在所有示例中保持不变--cb_explore_adf
当动作集随时间变化或您拥有每个动作的丰富信息时,上下文bandit学习算法。Vowpal Wabbit为上下文盗贼提供了不同的输入格式- 先探索:
--先探索
- ε贪婪:
--Epsilon
- 装袋浏览器:
--装袋
- 在线封面:
--封面
- Softmax Explorer:
(仅支持--Softmax
)--cb\U explore\U adf
- 完整命令行
- 输入数据
- 预期产量
对于每个选项,都可以在文件的源代码树中找到,向下滚动到
\uuuuu DATA\uuuu
部分以查找许多命令示例。什么是-cb的基线学习器?对vw.learn()的每次调用都必须获得一些F(上下文,动作)=奖励,并选择奖励最大的动作作为推荐。但是在训练期间,“F”默认值是什么(线性、神经网络、树等)?cb的基线学习者是什么?对vw.learn()的每次调用都必须获得一些F(上下文,动作)=奖励,并选择奖励最大的动作作为推荐。但在训练过程中,“F”默认值是什么(线性、神经网络、树等)?