Nlp 手套文本预处理

Nlp 手套文本预处理,nlp,word2vec,glove,Nlp,Word2vec,Glove,我注意到在技术上,人们将文本URL、数字和日期转换为。手套数据集是否针对这些占位符进行了嵌入培训。我可以直接将它们输入到数据集中吗?您可以将想要的任何令牌输入到word2vec/手套培训课程中 但是,通常具有大量内部变化的标记,但可能很少或分散语义(或每个变体的示例太少),要么被省略,要么合并为合成替换标记 例如,每个数字都可能变成“\uuu NUM\uuu”。(或者,放入范围内的桶中,如,,,

我注意到在技术上,人们将文本URL、数字和日期转换为。手套数据集是否针对这些占位符进行了嵌入培训。我可以直接将它们输入到数据集中吗?

您可以将想要的任何令牌输入到word2vec/手套培训课程中

但是,通常具有大量内部变化的标记,但可能很少或分散语义(或每个变体的示例太少),要么被省略,要么合并为合成替换标记

例如,每个数字都可能变成
“\uuu NUM\uuu”
。(或者,放入范围内的桶中,如
“\uuuu 1700s\uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu

任何特定的预先训练的模型可能已经做了什么,都需要直接与模型的创建者检查,或者通过探测模型中的标记来检查。当然,您应该在任何您打算查找预训练向量集的实体/标记上提供类似的规范化

因此,如果你自己进行培训,或者取决于某个特定项目之前做出的决定,那么你要做的事情完全取决于你自己,因此只有在确定了特定项目/数据集/代码库后才需要负责