Nlp .lower()是否应该应用于单词嵌入(特别是德语)?

Nlp .lower()是否应该应用于单词嵌入(特别是德语)?,nlp,spacy,word-embedding,fasttext,Nlp,Spacy,Word Embedding,Fasttext,我注意到在预训练的嵌入中,例如fastText和spaCy单词向量是不同的,这取决于我是否将第一个字母大写。这是否意味着在这些嵌入中考虑了大小写,还是最好在处理之前将所有内容.lower()都删除 特别是,我对德语模型很感兴趣,在德语模型中,资本化扮演着更重要的角色,不像英语中的大多数单词都不是大写的。如果你对资本化有不同的行为,那么是的,大写是很重要的。既然大写和非大写的单词仍然有相同的意思,而且这些单词的余弦相似度不一定很高,那么嵌入怎么能正确工作呢?我认为这对fastText和spaCy的

我注意到在预训练的嵌入中,例如fastText和spaCy单词向量是不同的,这取决于我是否将第一个字母大写。这是否意味着在这些嵌入中考虑了大小写,还是最好在处理之前将所有内容
.lower()
都删除


特别是,我对德语模型很感兴趣,在德语模型中,资本化扮演着更重要的角色,不像英语中的大多数单词都不是大写的。

如果你对资本化有不同的行为,那么是的,大写是很重要的。既然大写和非大写的单词仍然有相同的意思,而且这些单词的余弦相似度不一定很高,那么嵌入怎么能正确工作呢?我认为这对fastText和spaCy的人来说是个好问题。你到底想要哪种行为?我想基于词向量进行句子相似性分类,余弦相似性分数相差约0.2,这取决于我是将所有内容小写还是保持大写不变。我只是想知道这种用法的“正确”方法是什么。“正确”方法就是给你想要的行为的方法。