Neural network 如何在向量中嵌入句子 我使用了Word2VEC将单词嵌入到向量中。例如,考虑我有一个5字的句子。因此,我得到了5个不同的向量(每个单词一个)用于句子。这是使完整句子成为一个向量的最好方法,我将传递给ANN? < P>你可以使用这个词袋概念,如这里所解释的。这样你就可以收集你所有的单词并把它们放到一个词汇表中。之后,您可以将您的句子表示为向量,其中每个元素为1或0,具体取决于单词是否在句子中。 例如,如果你的句子是

Neural network 如何在向量中嵌入句子 我使用了Word2VEC将单词嵌入到向量中。例如,考虑我有一个5字的句子。因此,我得到了5个不同的向量(每个单词一个)用于句子。这是使完整句子成为一个向量的最好方法,我将传递给ANN? < P>你可以使用这个词袋概念,如这里所解释的。这样你就可以收集你所有的单词并把它们放到一个词汇表中。之后,您可以将您的句子表示为向量,其中每个元素为1或0,具体取决于单词是否在句子中。 例如,如果你的句子是,neural-network,artificial-intelligence,recurrent-neural-network,sentiment-analysis,Neural Network,Artificial Intelligence,Recurrent Neural Network,Sentiment Analysis,你好,我叫彼得 你的字典将会被删除 [你好,我叫彼得] 你的句子的向量是 [1,1,1,1,1] 如果你有另外一句话 我很高兴 你的字典将扩展,包括这些单词。就这样吧 [你好,我的名字是,彼得,我是,很高兴] 你的向量句也会扩展 [1,1,1,1,1,0,0,0] 另外,您还可以创建一个词汇表,其中每个单词都由一个数字表示,以便 {你好:1,我的:2,名字:3,is:Peter:4,I:5,am:6,happy:7} 你的句子的向量是 [1,2,3,4] 对于每个新句子,你将使用词汇表作为参考,

你好,我叫彼得

你的字典将会被删除

[你好,我叫彼得]

你的句子的向量是

[1,1,1,1,1]

如果你有另外一句话

我很高兴

你的字典将扩展,包括这些单词。就这样吧

[你好,我的名字是,彼得,我是,很高兴]

你的向量句也会扩展

[1,1,1,1,1,0,0,0]

另外,您还可以创建一个词汇表,其中每个单词都由一个数字表示,以便

{你好:1,我的:2,名字:3,is:Peter:4,I:5,am:6,happy:7}

你的句子的向量是

[1,2,3,4]


对于每个新句子,你将使用词汇表作为参考,将单词转换成数字

如本文所述,您可以使用单词袋概念。这样你就可以收集你所有的单词并把它们放到一个词汇表中。之后,您可以将您的句子表示为向量,其中每个元素为1或0,具体取决于单词是否在句子中。 例如,如果你的句子是

你好,我叫彼得

你的字典将会被删除

[你好,我叫彼得]

你的句子的向量是

[1,1,1,1,1]

如果你有另外一句话

我很高兴

你的字典将扩展,包括这些单词。就这样吧

[你好,我的名字是,彼得,我是,很高兴]

你的向量句也会扩展

[1,1,1,1,1,0,0,0]

另外,您还可以创建一个词汇表,其中每个单词都由一个数字表示,以便

{你好:1,我的:2,名字:3,is:Peter:4,I:5,am:6,happy:7}

你的句子的向量是

[1,2,3,4]


对于每个新句子,你将使用词汇表作为参考,将单词转换成数字

这是一个公开的问题;有许多方法可以创建有意义的句子向量

  • 正如Fabrizio_P所解释的,弓模型
  • 元素向量运算()
    • 加法(即简单地将所有单词向量加在一起,之后可能进行规范化)
    • 乘法(即,按元素将所有向量相乘,产生逻辑上固定的嵌入)
  • 任意特定于任务的递归函数()
  • 更复杂的通用方法(,)

元素操作,例如向量加法,对于大多数简单的任务来说已经足够了,但是随着句子变大或者手头的任务变得更加苛刻,显然会出现大量的信息丢失。递归神经网络非常擅长创建任务特定的句子嵌入,但显然这些需要训练数据和熟悉机器学习。从研究角度来看,通用语句嵌入是最有趣的,但可能不是你想要的;有许多方法可以创建有意义的句子向量

  • 正如Fabrizio_P所解释的,弓模型
  • 元素向量运算()
    • 加法(即简单地将所有单词向量加在一起,之后可能进行规范化)
    • 乘法(即,按元素将所有向量相乘,产生逻辑上固定的嵌入)
  • 任意特定于任务的递归函数()
  • 更复杂的通用方法(,)

元素操作,例如向量加法,对于大多数简单的任务来说已经足够了,但是随着句子变大或者手头的任务变得更加苛刻,显然会出现大量的信息丢失。递归神经网络非常擅长创建任务特定的句子嵌入,但显然这些需要训练数据和熟悉机器学习。从研究角度来看,通用语句嵌入是最有趣的,但可能不是您想要的。word2vec是一种创建单词嵌入的算法,您可以在此处阅读详细信息

您可以在自己的数据集上运行此算法,或者使用谷歌(或其他方)在数十亿文档上运行的已保存单词嵌入

其思想是将每个单词映射为n维向量空间中的稠密向量,从而包含更多关于单词及其关系的信息


简单地说,每个单词都由唯一的数字列表表示,现在可以对单词、句子和文档进行数学运算

word2vec是一种创建单词嵌入的算法,您可以在这里阅读详细信息

您可以在自己的数据集上运行此算法,或者使用谷歌(或其他方)在数十亿文档上运行的已保存单词嵌入

其思想是将每个单词映射为n维向量空间中的稠密向量,从而包含更多关于单词及其关系的信息


简单地说,每个单词都由唯一的数字列表表示,现在可以对单词、句子和文档进行数学运算

但是矩阵的长度会随着句子中单词的增加而增加,矩阵会变得空间化。在单词2VEC中,向量的维数只有300