Nlp .lower（）是否应该应用于单词嵌入（特别是德语）？_Nlp_Spacy_Word Embedding_Fasttext

Nlp .lower（）是否应该应用于单词嵌入（特别是德语）？

nlp

Nlp .lower（）是否应该应用于单词嵌入（特别是德语）？,nlp,spacy,word-embedding,fasttext,Nlp,Spacy,Word Embedding,Fasttext,我注意到在预训练的嵌入中，例如fastText和spaCy单词向量是不同的，这取决于我是否将第一个字母大写。这是否意味着在这些嵌入中考虑了大小写，还是最好在处理之前将所有内容.lower（）都删除特别是，我对德语模型很感兴趣，在德语模型中，资本化扮演着更重要的角色，不像英语中的大多数单词都不是大写的。如果你对资本化有不同的行为，那么是的，大写是很重要的。既然大写和非大写的单词仍然有相同的意思，而且这些单词的余弦相似度不一定很高，那么嵌入怎么能正确工作呢？我认为这对fastText和spaCy的

我注意到在预训练的嵌入中，例如fastText和spaCy单词向量是不同的，这取决于我是否将第一个字母大写。这是否意味着在这些嵌入中考虑了大小写，还是最好在处理之前将所有内容

.lower（）

都删除

特别是，我对德语模型很感兴趣，在德语模型中，资本化扮演着更重要的角色，不像英语中的大多数单词都不是大写的。

如果你对资本化有不同的行为，那么是的，大写是很重要的。既然大写和非大写的单词仍然有相同的意思，而且这些单词的余弦相似度不一定很高，那么嵌入怎么能正确工作呢？我认为这对fastText和spaCy的人来说是个好问题。你到底想要哪种行为？我想基于词向量进行句子相似性分类，余弦相似性分数相差约0.2，这取决于我是将所有内容小写还是保持大写不变。我只是想知道这种用法的“正确”方法是什么。“正确”方法就是给你想要的行为的方法。