Vector 如何针对特定目的正确培训Word2Vec模型

Vector 如何针对特定目的正确培训Word2Vec模型,vector,deep-learning,gensim,word2vec,word-embedding,Vector,Deep Learning,Gensim,Word2vec,Word Embedding,我的问题是如何对模型进行适当的培训,以实现Word2Vec模型的独特和真正具体的使用 我正在识别单词嵌入中的名词-形容词(或)关系 (例如,我们在数据集中的一个句子中有‘nice car’。考虑到语料库中的单词嵌入以及所有标记的名词和形容词,我正试图设计一种技术来找到连接‘nice’和‘car’的适当向量。) 当然,我并不是只想把这两个词联系起来,但这种技术应该适用于所有的关系。此时采用有监督的方法,然后尝试设计无监督的方法 既然你明白我想做什么,我就来解释这个问题。很明显,我知道word2ve

我的问题是如何对模型进行适当的培训,以实现Word2Vec模型的独特和真正具体的使用

我正在识别单词嵌入中的名词-形容词(或)关系

(例如,我们在数据集中的一个句子中有‘nice car’。考虑到语料库中的单词嵌入以及所有标记的名词和形容词,我正试图设计一种技术来找到连接‘nice’和‘car’的适当向量。)

当然,我并不是只想把这两个词联系起来,但这种技术应该适用于所有的关系。此时采用有监督的方法,然后尝试设计无监督的方法

既然你明白我想做什么,我就来解释这个问题。很明显,我知道word2vec需要接受大量数据的培训,以便尽可能准确地学习适当的嵌入,但我恐怕要给它提供比带有标记语句的数据集(500-700)更多的数据

我担心,如果我给它更多的数据进行训练(例如,最新的维基百科转储数据集),它将学习更好的向量,但额外的数据将影响我单词的定位,那么额外的训练数据会使这个单词关系产生偏差。(例如,如果额外的培训数据中也有“尼斯苹果”,那么“尼斯”一词的定位可能会受到影响)

希望这是有意义的,我没有做出错误的假设,但我只是处于进退两难的境地,因为没有足够的训练数据,或者有好的向量,但在单词嵌入中有折衷的向量定位

正确的训练方式是什么?尽可能多的训练数据(数十亿个单词)或仅标记数据集(500-700个句子)


非常感谢您抽出时间,如果我解释的任何内容没有意义,请告诉我。

在类似情况下,最好检查一下

我想知道您是否测试了标签数据集结果与维基百科数据集的训练差异。你真的害怕看到这些问题吗

我只需要运行一个实验,检查两种情况下的向量是否确实不同(从统计学上讲)


我怀疑你可能会在语料库更大的情况下引入一些噪音,但更多的数据可能对wrt有益。词汇覆盖率(语料库更大-更普遍)。这完全取决于您预期的用例。这很可能是在高精度和极低召回率之间的折衷,而在一般精度和相对较好的召回率之间的折衷。

感谢@Sophos的回复。我还没有做过实验,我只是想先问一下,看看别人怎么想,但我完全理解并同意你所说的。如果没有人会有明确的答案,我会考虑设计一些实验来检验这些差异。目前还不清楚你的目标是什么独特的。你期望“好”和“车”之间有什么样的关系?为什么词性标注很重要?您确定词性未标记文本上的纯文字2VEC是不够的吗?请注意,对于这种模型来说,500-700个句子是很小的——数百万(或数十亿)的训练单词会产生好的结果,特别是实现数百维的单词向量,以及不太常见的单词的好向量。我正在看的是意见短语。意见有一个特征(如“汽车”)和一个特征描述符(如“尼斯”)。我没有详细介绍细节,但我正在尝试进行基于特征的意见挖掘(原著:胡敏清和刘冰,《在客户评论中挖掘意见特征》,AAAI,第4卷,第4期,2004年)。我已经标记了特征和特征描述符,以及原始文本数据,我知道500-700个句子是不够的,但是对更多数据的培训会给特征和特征描述符的定位带来额外的噪音,我正试着这么做avoid@gojomo请阅读sophros的答案,了解仅在标记数据集上进行训练和使用坏向量与在尽可能多的数据上进行训练+标记数据集和引入与标记数据集的语义含义无关的噪声之间的矛盾。您可能想看看FastText的分类选项–训练单词向量机,使其擅长预测类别,而不仅仅是相邻单词。尽管如此,您仍然需要更多的数据。类似领域(评论)的数据,即使没有情感标签,也可能有助于充实词汇,不会带来来自不同领域的词汇噪音。@gojomo谢谢,这很有意义