Vector 什么是单词向量维

Vector 什么是单词向量维,vector,neural-network,Vector,Neural Network,我目前是一名深入学习的业余爱好者,在这个网站上阅读了关于word2vector的文章 对于CBOW或skipgram模型,我可以看到单词向量的维数是300,词汇大小是15000。我在之前的文章中读到的是,我们可以用矢量对单词进行硬编码。所以我猜单词向量维度应该等于词汇量,或者换一种方式问这个问题,这个单词维度是什么,以及如何可视化它。你是如何看待这个维度的?实际上,单词向量维度并不反映词汇的大小。 Word2Vec所做的是将单词映射到向量空间中它们的表示形式,您可以使这个空间具有您想要的任何维

我目前是一名深入学习的业余爱好者,在这个网站上阅读了关于word2vector的文章


对于CBOW或skipgram模型,我可以看到单词向量的维数是300,词汇大小是15000。我在之前的文章中读到的是,我们可以用矢量对单词进行硬编码。所以我猜单词向量维度应该等于词汇量,或者换一种方式问这个问题,这个单词维度是什么,以及如何可视化它。你是如何看待这个维度的?

实际上,单词向量维度并不反映词汇的大小。 Word2Vec所做的是将单词映射到向量空间中它们的表示形式,您可以使这个空间具有您想要的任何维度::每个单词都由这个空间中的一个点表示,单词向量维度是这个单词在这个空间中的坐标。 同样,在同一上下文中出现的单词也会在这个空间中相邻出现

希望这对您有所帮助。

“单词向量维度”是您使用培训文档培训过的向量的维度。从技术上讲,你可以选择任何维度,比如10、100、300甚至1000。行业标准为300-500,因为我们已经尝试了不同的维度(300、400、500、…1000等),但没有注意到300-400之后的显著性能改进。(这也取决于你的训练数据。)听起来,维度越多,计算量就越大。但是,如果我们将维度设置得太低,那么就没有太多的向量空间来捕获整个培训文档包含的信息

如何将其可视化

你不能轻易地可视化300维向量,而且可能可视化300维向量对你来说也不是太有用。我们能做的就是把这些向量投影到二维空间,这个空间我们最熟悉,也最容易理解

你的上一句话所以我猜单词向量维度应该等于词汇量是错误的!
词汇量为171476个单词(英语单词总数)!Word vector dimension(大多数为300-500。您不想训练10亿维向量,是吗?)是您事先决定训练数据的向量大小。我的视频(无耻插件)将帮助您理解重要的词向量概念:

您能解释一下这句话吗:“我们一个热代码的词向量”?请看一下这个链接,让我知道“将最小字数设置为40使我们的词汇量达到16492个单词,每个单词有300个特征”意味着有300个特征。这些词的特点是什么