Nlp 在ham vs spam案例中创建新的相似性特征时，我是否应该将垃圾邮件与自身的相似性包含在samp相似性的平均值中？_Nlp_Feature Extraction_Feature Engineering

Nlp 在ham vs spam案例中创建新的相似性特征时，我是否应该将垃圾邮件与自身的相似性包含在samp相似性的平均值中？

nlp

Nlp 在ham vs spam案例中创建新的相似性特征时，我是否应该将垃圾邮件与自身的相似性包含在samp相似性的平均值中？,nlp,feature-extraction,feature-engineering,Nlp,Feature Extraction,Feature Engineering,我想通过在我的数据中添加一个新的特征列来改进我的模型，即火腿和垃圾邮件文本的数据。我已经在所有文本之间创建了平方余弦相似矩阵，矩阵的对角线为1s=cos（0）我提取训练数据中的所有垃圾邮件文本索引，并创建相似性列，对于列中的每个单元格，我添加此文本和所有垃圾邮件之间的单个相似性，并对它们进行平均我的问题：对于火腿的文本，上面这样做是有意义的。但对于垃圾邮件文本，在计算相似度时，是否应该排除自身之间的相似度？它会导致数据泄漏吗？如果我们有n个样本大小的文本，我将ham_1的相似性值表示为

我想通过在我的数据中添加一个新的特征列来改进我的模型，即火腿和垃圾邮件文本的数据。我已经在所有文本之间创建了平方余弦相似矩阵，矩阵的对角线为1s=cos（0）

我提取训练数据中的所有垃圾邮件文本索引，并创建相似性列，对于列中的每个单元格，我添加此文本和所有垃圾邮件之间的单个相似性，并对它们进行平均

我的问题：对于火腿的文本，上面这样做是有意义的。但对于垃圾邮件文本，在计算相似度时，是否应该排除自身之间的相似度？它会导致数据泄漏吗？

如果我们有n个样本大小的文本，我将ham_1的相似性值表示为平均值（火腿1~火腿1，火腿1~火腿2，…，火腿1~火腿n）

我的问题是:

对于垃圾邮件文本spam_5，相似度值=平均值（spam_5~ spam_1，spam_5~ spam_2，…，spam_5~ spam_5，…，spam_5~ spam_n）

或

对于垃圾邮件文本spam_5，相似度值=平均值（spam_5~ spam_1，spam_5~ spam_2，…，spam_5~ spam_5，…，spam_5~ spam_n）