Text 文本特征编码规则

Text 文本特征编码规则,text,vowpalwabbit,Text,Vowpalwabbit,我想使用大众汽车对这些数据进行培训: -1 |字1字2 1 |字1字3字1 。。。等 如您所见,在第二个示例中,“word1”重复了两次 大众的文档说明大众的默认行为是自动向每个令牌添加“:1”,例如,第一个示例: -1 |字1:1字2:1 我的问题是:在第二个例子中,我必须做什么 选项#1:按如下方式进行转换: 1字1:2字3 选项2:保持原样: 1 |字1字3字1 (在这种情况下,我认为会发生一些碰撞)我昨天刚开始使用VW,所以我可能完全搞混了,但我有同样的问题,我做了一些测试。当它

我想使用大众汽车对这些数据进行培训:

-1 |字1字2

1 |字1字3字1

。。。等

如您所见,在第二个示例中,“word1”重复了两次

大众的文档说明大众的默认行为是自动向每个令牌添加“:1”,例如,第一个示例:

-1 |字1:1字2:1

我的问题是:在第二个例子中,我必须做什么

  • 选项#1:按如下方式进行转换:
1字1:2字3

  • 选项2:保持原样:
1 |字1字3字1


(在这种情况下,我认为会发生一些碰撞)

我昨天刚开始使用VW,所以我可能完全搞混了,但我有同样的问题,我做了一些测试。当它做出预测时,你是用“word:2”还是“word”似乎并不重要。但是,当训练时,似乎很重要。我创建了两个小的培训数据文件,train1和train2,它们只在使用“word:2”和“word word”时有所不同,并进行如下培训:

vw -d train1 -f predictor1.vw --loss_function hinge
vw -d train2 -f predictor2.vw --loss_function hinge
然后,我根据培训1中的培训查看了两个数据集的预测:

vw -d train1 -t -i predictor1.vw -p out ; cat out
vw -d train2 -t -i predictor1.vw -p out ; cat out
他们是一样的。对predictor2.vw做同样的事情会得到不同的结果,但对第1列和第2列的结果都是相同的

作为一个附加测试,我创建了train3,它只包含一次单词(没有以任何方式加倍),只是为了看看结果是否与train1或train2匹配,看看我是否可以确定其中一个单词没有加倍。两个都不匹配。Predictor 3.vw给出的第1列和第2列预测值彼此相同,但与Predictor 1.vw或Predictor 2.vw的预测值不同

这对我来说真的没有意义,除非训练中有一些随机方面(例如种子)在解析输入文本之前以某种方式链接到输入文本