Text 文本特征编码规则_Text_Vowpalwabbit

Text 文本特征编码规则

text

Text 文本特征编码规则,text,vowpalwabbit,Text,Vowpalwabbit,我想使用大众汽车对这些数据进行培训： -1 |字1字2 1 |字1字3字1 。。。等如您所见，在第二个示例中，“word1”重复了两次大众的文档说明大众的默认行为是自动向每个令牌添加“：1”，例如，第一个示例： -1 |字1:1字2:1 我的问题是：在第二个例子中，我必须做什么选项#1：按如下方式进行转换： 1字1:2字3 选项2：保持原样： 1 |字1字3字1 （在这种情况下，我认为会发生一些碰撞）我昨天刚开始使用VW，所以我可能完全搞混了，但我有同样的问题，我做了一些测试。当它

我想使用大众汽车对这些数据进行培训：

-1 |字1字2

1 |字1字3字1

。。。等

如您所见，在第二个示例中，“word1”重复了两次

大众的文档说明大众的默认行为是自动向每个令牌添加“：1”，例如，第一个示例：

-1 |字1:1字2:1

我的问题是：在第二个例子中，我必须做什么

选项#1：按如下方式进行转换：

1字1:2字3

选项2：保持原样：

1 |字1字3字1

（在这种情况下，我认为会发生一些碰撞）

我昨天刚开始使用VW，所以我可能完全搞混了，但我有同样的问题，我做了一些测试。当它做出预测时，你是用“word:2”还是“word”似乎并不重要。但是，当训练时，似乎很重要。我创建了两个小的培训数据文件，train1和train2，它们只在使用“word:2”和“word word”时有所不同，并进行如下培训：

vw -d train1 -f predictor1.vw --loss_function hinge vw -d train2 -f predictor2.vw --loss_function hinge
然后，我根据培训1中的培训查看了两个数据集的预测：

vw -d train1 -t -i predictor1.vw -p out ; cat out vw -d train2 -t -i predictor1.vw -p out ; cat out
他们是一样的。对predictor2.vw做同样的事情会得到不同的结果，但对第1列和第2列的结果都是相同的
作为一个附加测试，我创建了train3，它只包含一次单词（没有以任何方式加倍），只是为了看看结果是否与train1或train2匹配，看看我是否可以确定其中一个单词没有加倍。两个都不匹配。Predictor 3.vw给出的第1列和第2列预测值彼此相同，但与Predictor 1.vw或Predictor 2.vw的预测值不同
这对我来说真的没有意义，除非训练中有一些随机方面（例如种子）在解析输入文本之前以某种方式链接到输入文本