Vector xB1;自然语言处理中词语相似度的2窗口

Vector xB1;自然语言处理中词语相似度的2窗口,vector,nlp,distribution,Vector,Nlp,Distribution,下面有一个问题: //--------问题开始--------------------- 考虑以下由三个句子组成的小语料库: 法官敲了敲木槌,让法庭安静下来。买便宜的锯子是假的 经济。锤子猛击钉子时,钉子被钉了进去。 使用分布相似性来确定单词gavel的平均值是否更相似- 用锤子或锯子敲打。要计算分布相似性,你必须(1)使用一袋单词 在以目标为特征的±2窗口中,(2)不得以任何方式改变上下文单词 (例如,通过词干或删除停止词)和(3)使用骰子度量进行比较 特征向量。确保展示你工作的所有阶段 //

下面有一个问题:

//--------问题开始---------------------

考虑以下由三个句子组成的小语料库:

法官敲了敲木槌,让法庭安静下来。买便宜的锯子是假的
经济。锤子猛击钉子时,钉子被钉了进去。

使用分布相似性来确定单词gavel的平均值是否更相似- 用锤子或锯子敲打。要计算分布相似性,你必须(1)使用一袋单词 在以目标为特征的±2窗口中,(2)不得以任何方式改变上下文单词 (例如,通过词干或删除停止词)和(3)使用骰子度量进行比较 特征向量。确保展示你工作的所有阶段

//--------问题结束---------------------


我不明白(1)中的±2窗口是什么。有人能给我解释一下吗?非常感谢大家。

一个±2的窗口意味着目标单词左边有2个单词,右边有2个单词。对于目标词“沉默”,窗口将是[“木槌”、“到”、“法庭”];对于“锤子”,窗口将是[“当”、“敲击”、“它”]。

A±2窗口表示目标词左侧2个单词,右侧2个单词。对于目标词“沉默”,窗口将是[“木槌”,“to”,“the”,“court”],对于“hammer”,窗口将是[“when”,“the”,“stroked”,“it”]。

我猜这意味着目标词周围有两个词。所以对于“Strike”,包括从“the”到“gavel”。我猜这意味着目标词周围有两个单词。所以对于“Strike”,包括从“the”到“gavel”。我猜这意味着目标词周围有两个单词。所以对于“打击”,这将包括从“the”到“gavel”。