Vowpalwabbit 上下文强盗问题中的（Vowpal-Wabbit）cb模式_Vowpalwabbit

Vowpalwabbit 上下文强盗问题中的（Vowpal-Wabbit）cb模式

Vowpalwabbit 上下文强盗问题中的（Vowpal-Wabbit）cb模式,vowpalwabbit,Vowpalwabbit,我有两个关于在Vowpal Wabbit中使用上下文bandit模式的快速问题 1） --cb模式是否输出确定性策略，该策略贪婪地选择给定训练数据集学习到的最佳动作？因此，选择动作的概率为1，其他所有动作的概率为0 2）我想知道--cb_explore政策学习过程背后的理论背景是什么。我知道-cb的政策学习过程来自。--cbu explore是否使用相同的过程？既然--cbu explore基本上是一个非固定策略，我认为它应该使用不同的过程。快速回答：从根本上说，是的，在特定的环境下，具有最

我有两个关于在Vowpal Wabbit中使用上下文bandit模式的快速问题

1）

--cb

模式是否输出确定性策略，该策略贪婪地选择给定训练数据集学习到的最佳动作？因此，选择动作的概率为1，其他所有动作的概率为0

2）我想知道

--cb_explore

政策学习过程背后的理论背景是什么。我知道

-cb

的政策学习过程来自。

--cbu explore

是否使用相同的过程？既然

--cbu explore

基本上是一个非固定策略，我认为它应该使用不同的过程。

快速回答：

从根本上说，是的，在特定的环境下，具有最佳（已知）回报的行动获胜。但是请注意，使用

--cb

进行学习也支持

--epsilon

（epsilon greedy探索算法）。在第一次学习期间，部分动作空间被用于进一步探索（而不是纯粹贪婪地利用已知的东西）

根据命令行选项，支持多种探索与利用算法以及每个算法的一些进一步的超参数

更详细的答案来源于注：vowpalwabbit.org是一个很好的资源，可以在

vw

中获得更多关于背景土匪的信息

Vowpal Wabbit支持三（3）种基于上下文的bandit算法：

--cb

上下文盗贼模块，允许您根据已收集的数据或上下文盗贼优化预测，而无需探索

--cb_探索

上下文bandit学习算法，以确定何时提前知道最大动作数，并且动作语义在所有示例中保持不变

--cb_explore_adf

当动作集随时间变化或您拥有每个动作的丰富信息时，上下文bandit学习算法。Vowpal Wabbit为上下文盗贼提供了不同的输入格式

当探索生效时，Vowpal Wabbit提供五（5）种探索算法：

先探索：
```
--先探索
```
ε贪婪：
```
--Epsilon
```
装袋浏览器：
```
--装袋
```
在线封面：
```
--封面
```
Softmax Explorer:
```
--Softmax
```
（仅支持
```
--cb\U explore\U adf
```
）

工作示例，包括：

完整命令行
输入数据
预期产量

对于每个选项，都可以在文件的源代码树中找到，向下滚动到

\uuuuu DATA\uuuu

部分可以找到许多命令示例。

快速答案：