Nlp 在ham vs spam案例中创建新的相似性特征时,我是否应该将垃圾邮件与自身的相似性包含在samp相似性的平均值中?

Nlp 在ham vs spam案例中创建新的相似性特征时,我是否应该将垃圾邮件与自身的相似性包含在samp相似性的平均值中?,nlp,feature-extraction,feature-engineering,Nlp,Feature Extraction,Feature Engineering,我想通过在我的数据中添加一个新的特征列来改进我的模型,即火腿和垃圾邮件文本的数据。 我已经在所有文本之间创建了平方余弦相似矩阵,矩阵的对角线为1s=cos(0) 我提取训练数据中的所有垃圾邮件文本索引,并创建相似性列,对于列中的每个单元格,我添加此文本和所有垃圾邮件之间的单个相似性,并对它们进行平均 我的问题:对于火腿的文本,上面这样做是有意义的。但对于垃圾邮件文本,在计算相似度时,是否应该排除自身之间的相似度?它会导致数据泄漏吗? 如果我们有n个样本大小的文本,我将ham_1的相似性值表示为

我想通过在我的数据中添加一个新的特征列来改进我的模型,即火腿和垃圾邮件文本的数据。 我已经在所有文本之间创建了平方余弦相似矩阵,矩阵的对角线为1s=cos(0)

我提取训练数据中的所有垃圾邮件文本索引,并创建相似性列,对于列中的每个单元格,我添加此文本和所有垃圾邮件之间的单个相似性,并对它们进行平均

我的问题:对于火腿的文本,上面这样做是有意义的。但对于垃圾邮件文本,在计算相似度时,是否应该排除自身之间的相似度?它会导致数据泄漏吗?

如果我们有n个样本大小的文本,我将ham_1的相似性值表示为 平均值(火腿1~火腿1,火腿1~火腿2,…,火腿1~火腿n)

我的问题是:

对于垃圾邮件文本spam_5,相似度值=平均值(spam_5~ spam_1,spam_5~ spam_2,…,spam_5~ spam_5,…,spam_5~ spam_n)

对于垃圾邮件文本spam_5,相似度值=平均值(spam_5~ spam_1,spam_5~ spam_2,…,spam_5~ spam_5,…,spam_5~ spam_n)