Nlp 我是否应该使用来自训练、验证和测试语料库的数据来训练嵌入?

Nlp 我是否应该使用来自训练、验证和测试语料库的数据来训练嵌入?,nlp,word-embedding,Nlp,Word Embedding,我的领域(越南食品评论)没有任何预先训练过的单词。所以我从一般的和特定的语料库中得到了嵌入的想法 这里的重点是我可以使用训练、测试和验证(did预处理)数据集作为创建我自己的单词嵌入的源。如果没有,希望你能给你的经验 根据我的直觉和一些实验,一个广泛的语料库似乎更好,但我想知道是否有相关的研究或其他相关的结果 我可以使用培训、测试和验证(did)数据集吗 预处理)作为创建我自己的单词嵌入的源 当然,嵌入不是机器学习模型的特性。它们是数据的“计算表示”。简而言之,它们由向量空间中表示的单词组成。有

我的领域(越南食品评论)没有任何预先训练过的单词。所以我从一般的和特定的语料库中得到了嵌入的想法

这里的重点是我可以使用训练、测试和验证(did预处理)数据集作为创建我自己的单词嵌入的源。如果没有,希望你能给你的经验

根据我的直觉和一些实验,一个广泛的语料库似乎更好,但我想知道是否有相关的研究或其他相关的结果

我可以使用培训、测试和验证(did)数据集吗 预处理)作为创建我自己的单词嵌入的源

当然,嵌入不是机器学习模型的特性。它们是数据的“计算表示”。简而言之,它们由向量空间中表示的单词组成。有了嵌入,您的数据就不那么稀疏了。使用单词嵌入可以被认为是NLP预处理步骤的一部分

通常(我的意思是,使用最常用的技术word2vec),一个单词在向量空间中的表示是由其周围环境(通常伴随的单词)定义的

因此,为了创建嵌入,语料库越大越好,因为它可以更好地将单词向量放置在向量空间中(从而将其与其他类似单词进行比较)

我可以使用培训、测试和验证(did)数据集吗 预处理)作为创建我自己的单词嵌入的源

当然,嵌入不是机器学习模型的特性。它们是数据的“计算表示”。简而言之,它们由向量空间中表示的单词组成。有了嵌入,您的数据就不那么稀疏了。使用单词嵌入可以被认为是NLP预处理步骤的一部分

通常(我的意思是,使用最常用的技术word2vec),一个单词在向量空间中的表示是由其周围环境(通常伴随的单词)定义的


因此,为了创建嵌入,语料库越大越好,因为它可以更好地将一个单词向量放置在向量空间中(从而与其他类似单词进行比较)。

我真的很喜欢你的解释。然而,我对模型准确性的“正确性”感到非常困惑(通过这种方法,我们可以在某种程度上解决OOV问题)。对不起,我不明白你所说的“我对模型准确性的“正确性”感到非常困惑”是指如果我在数据集上训练模型(用于创建单词嵌入),在这种情况下,它将提高模型的准确性(因此,如果模型处于磨损状态,我们无法准确评估模型),您必须保持数据集的分割。您只需加入它进行嵌入培训。所以你有机器学习的训练和测试集,嵌入集=训练+测试集。否则你可能会以过度装修而告终。我真的很喜欢你的解释。然而,我对模型准确性的“正确性”感到非常困惑(通过这种方法,我们可以在某种程度上解决OOV问题)。对不起,我不明白你所说的“我对模型准确性的“正确性”感到非常困惑”是指如果我在数据集上训练模型(用于创建单词嵌入),在这种情况下,它将提高模型的准确性(因此,如果模型处于磨损状态,我们无法准确评估模型),您必须保持数据集的分割。您只需加入它进行嵌入培训。所以你有机器学习的训练和测试集,嵌入集=训练+测试集。否则,您可能会以过度装配而告终。