Artificial intelligence 不完备训练集下的文档分类
请给我一些建议。我有一个文档集合,所有文档都有一个共同的属性(例如法语出现),其中一些文档被标记为与此集合无关(例如法语亲吻出现),但并非所有文档都保证已被识别。找出哪些其他文档不属于哪个文档的最佳方法是什么Artificial intelligence 不完备训练集下的文档分类,artificial-intelligence,neural-network,document-classification,Artificial Intelligence,Neural Network,Document Classification,请给我一些建议。我有一个文档集合,所有文档都有一个共同的属性(例如法语出现),其中一些文档被标记为与此集合无关(例如法语亲吻出现),但并非所有文档都保证已被识别。找出哪些其他文档不属于哪个文档的最佳方法是什么 某些类型的神经网络(如Rosenblatt感知器)可以在erroneus数据集上进行训练,并且可以显示出比tranier更好的性能。此外,在许多情况下,你应该犯错误,以避免过度训练 您可以随机标记所有未标记的文档,训练几个网络,并在测试集中评估它们的性能(当然,您不应该在测试集中包括未标记
- 注意:尽管词义消歧(WSD)方法可行,但它们需要付出太多的努力,而且对于这一目的来说是一种过度的杀伤力
T_0 := initial training set (consisting of relevant/irrelevant documents)
D0 := additional data to be bootstrapped
N := iterations for bootstrapping
for i = 0 to N-1
T_i+1 := empty training set
Build M0 and M1 as discussed above using a window-size w
for d in D0
if feature-word not in d
then add d to irrelevant documents of T_i+1
else
compute perplexity scores P0 and P1 corresponding to M0 and M1 using
window size w around the feature-word in d.
if P0 < P1 - delta
add d to irrelevant documents of T_i+1
else if P1 < P0 - delta
add d to relevant documents of T_i+1
else
do not use d in T_i+1
end
end
end
Select a small random sample from relevant and irrelevant documents in
T_i+1, and (re)classify them manually if required.
end
T_0:=初始培训集(由相关/无关文档组成)
D0:=要引导的其他数据
N:=引导的迭代次数
对于i=0到N-1
T_i+1:=空训练集
如上所述,使用窗口大小w构建M0和M1
对于D0中的d
如果特征词不在d中
然后将d添加到T_i+1的无关文档中
其他的
使用以下公式计算对应于M0和M1的困惑分数P0和P1
窗口大小w围绕d中的特征词。
如果P0
- 这是你的最后一套训练。在上述引导过程中,需要通过对一些保留数据(也称为开发数据)进行实验来确定参数delta
- 在小样本上进行手动重新分类,这样在引导过程中噪声不会在所有N次迭代中累积