Machine learning 训练集中短语的原型向量是什么

Machine learning 训练集中短语的原型向量是什么,machine-learning,wikipedia,Machine Learning,Wikipedia,我试图实现以下方法来消除实体的歧义。该过程包括两个步骤,一个训练阶段和消歧阶段。我想问一下培训阶段,我不太明白如何获得本段所述的原型向量: 在训练阶段,我们计算每一个单词或短语至少10次链接到一个特定的实体,我们称之为原型向量:这是一个TF.IDF加权的归一化列表,它出现在一个邻域(我们考虑左右10个单词)的各个链接中。请注意,一个相同的单词或短语可以有多个这样的原型向量,每个实体对应一个与集合中该单词或短语的某个匹配项相链接的向量 他们使用了维基百科的方法,并使用维基百科的链接作为培训集 有人

我试图实现以下方法来消除实体的歧义。该过程包括两个步骤,一个训练阶段和消歧阶段。我想问一下培训阶段,我不太明白如何获得本段所述的原型向量:

在训练阶段,我们计算每一个单词或短语至少10次链接到一个特定的实体,我们称之为原型向量:这是一个TF.IDF加权的归一化列表,它出现在一个邻域(我们考虑左右10个单词)的各个链接中。请注意,一个相同的单词或短语可以有多个这样的原型向量,每个实体对应一个与集合中该单词或短语的某个匹配项相链接的向量

他们使用了维基百科的方法,并使用维基百科的链接作为培训集


有人能帮我举一个原型向量的例子吗?我是这个领域的初学者

以下是原型向量的大致内容:

首先要注意的是,维基百科中的一个单词可以是指向页面的超链接(我们称之为实体)。这在某种程度上与这个词相关,但同一个词可以链接到不同的实体

“对于与特定实体链接至少10次的每个单词或短语” 在整个维基百科中,我们计算
word\u A
链接到
entity\u B
的次数,如果超过10次,我们继续(写下他们链接的实体的位置):

这里
wordA
出现在
entityA1
中,它链接到
entityB
,等等

“在相应链接的某个邻域中出现的所有术语的列表” 在
entityA1
中,
wordA
左右各有10个单词(我们只显示了4个):

每一对
(wordA,entityAi)
都给出了这样一个列表,将它们连接起来

“tf.idf加权、规范化列表” 基本上,这意味着你应该给常用词的“权重”要比不常用词少。例如,
“和”
“这些”
是非常常见的词,因此我们给它们的意义(它们位于
“实体”
旁边)比
“关系”
“之间”
要少

正常化,意味着我们应该(本质上)计算一个单词出现的次数(它出现的次数越多,我们认为它与
wordA
的关联性就越大)。然后将这个计数乘以权重,得到一些分数,以便对列表进行排序……将最频繁、最不常见的单词放在顶部

“请注意,同一个单词或短语可以有几个这样的原型向量” 这不仅取决于
wordA
,还取决于
entityB
,您可以将其视为映射

(wordA, entityB) -> tf.idf-weighted, normalized list (as described above)
(wordA, entityB2) -> a different tf.idf-weighted, normalized list

这表明,与“蝙蝠侠”的链接相比,“猫”这个词的链接不太可能有邻居。

非常感谢你的解释和修正我的问题格式。我想问更多关于你问题的下一步,但太长了,所以我将其作为答案发布。我不知道知道这是允许的,或者我需要为它编一个新的标题吗?高级版谢谢。不,worris,这是一篇有趣的论文。但也许你应该把它作为一个新的(不同的)问题发布?
are developed and the entity relationships between these data
                      wordA
                      link # (to entityB)

['are', 'developed, 'and', 'the', 'relationships', 'between', 'these', 'data'] 
(wordA, entityB) -> tf.idf-weighted, normalized list (as described above)
(wordA, entityB2) -> a different tf.idf-weighted, normalized list