Nlp 我是否应该使用来自训练、验证和测试语料库的数据来训练嵌入？_Nlp_Word Embedding

Nlp 我是否应该使用来自训练、验证和测试语料库的数据来训练嵌入？

nlp

Nlp 我是否应该使用来自训练、验证和测试语料库的数据来训练嵌入？,nlp,word-embedding,Nlp,Word Embedding,我的领域（越南食品评论）没有任何预先训练过的单词。所以我从一般的和特定的语料库中得到了嵌入的想法这里的重点是我可以使用训练、测试和验证（did预处理）数据集作为创建我自己的单词嵌入的源。如果没有，希望你能给你的经验根据我的直觉和一些实验，一个广泛的语料库似乎更好，但我想知道是否有相关的研究或其他相关的结果我可以使用培训、测试和验证（did）数据集吗预处理）作为创建我自己的单词嵌入的源当然，嵌入不是机器学习模型的特性。它们是数据的“计算表示”。简而言之，它们由向量空间中表示的单词组成。有

我的领域（越南食品评论）没有任何预先训练过的单词。所以我从一般的和特定的语料库中得到了嵌入的想法

这里的重点是我可以使用训练、测试和验证（did预处理）数据集作为创建我自己的单词嵌入的源。如果没有，希望你能给你的经验

根据我的直觉和一些实验，一个广泛的语料库似乎更好，但我想知道是否有相关的研究或其他相关的结果

我可以使用培训、测试和验证（did）数据集吗预处理）作为创建我自己的单词嵌入的源

当然，嵌入不是机器学习模型的特性。它们是数据的“计算表示”。简而言之，它们由向量空间中表示的单词组成。有了嵌入，您的数据就不那么稀疏了。使用单词嵌入可以被认为是NLP预处理步骤的一部分

通常（我的意思是，使用最常用的技术word2vec），一个单词在向量空间中的表示是由其周围环境（通常伴随的单词）定义的

因此，为了创建嵌入，语料库越大越好，因为它可以更好地将单词向量放置在向量空间中（从而将其与其他类似单词进行比较）
我可以使用培训、测试和验证（did）数据集吗预处理）作为创建我自己的单词嵌入的源
当然，嵌入不是机器学习模型的特性。它们是数据的“计算表示”。简而言之，它们由向量空间中表示的单词组成。有了嵌入，您的数据就不那么稀疏了。使用单词嵌入可以被认为是NLP预处理步骤的一部分
通常（我的意思是，使用最常用的技术word2vec），一个单词在向量空间中的表示是由其周围环境（通常伴随的单词）定义的

因此，为了创建嵌入，语料库越大越好，因为它可以更好地将一个单词向量放置在向量空间中（从而与其他类似单词进行比较）。
我真的很喜欢你的解释。然而，我对模型准确性的“正确性”感到非常困惑（通过这种方法，我们可以在某种程度上解决OOV问题）。对不起，我不明白你所说的“我对模型准确性的“正确性”感到非常困惑”是指如果我在数据集上训练模型（用于创建单词嵌入），在这种情况下，它将提高模型的准确性（因此，如果模型处于磨损状态，我们无法准确评估模型），您必须保持数据集的分割。您只需加入它进行嵌入培训。所以你有机器学习的训练和测试集，嵌入集=训练+测试集。否则你可能会以过度装修而告终。我真的很喜欢你的解释。然而，我对模型准确性的“正确性”感到非常困惑（通过这种方法，我们可以在某种程度上解决OOV问题）。对不起，我不明白你所说的“我对模型准确性的“正确性”感到非常困惑”是指如果我在数据集上训练模型（用于创建单词嵌入），在这种情况下，它将提高模型的准确性（因此，如果模型处于磨损状态，我们无法准确评估模型），您必须保持数据集的分割。您只需加入它进行嵌入培训。所以你有机器学习的训练和测试集，嵌入集=训练+测试集。否则，您可能会以过度装配而告终。