Nlp 需要一个；字里行间；变压器类型_Nlp_Word2vec_Huggingface Transformers_Transformer

Nlp 需要一个；字里行间；变压器类型

nlp

Nlp 需要一个；字里行间；变压器类型,nlp,word2vec,huggingface-transformers,transformer,Nlp,Word2vec,Huggingface Transformers,Transformer,我有一个NLP项目，其中一个单词集合目前由w2v编码，以与其他单词集合进行比较。我想试试transformers，它可以提供比w2v更好的编码。但是，由于数据的性质，我根本不需要位置编码（因为单词集合没有顺序）是否有一个预训练的转换器不会进行位置编码？您可以使用访问重复嵌入层。请看一下roberta的示例：导入火炬从transformers导入RobertaTokenizerFast，RobertaModel t=RobertaTokenizerFast.from_pretrained（'r

我有一个NLP项目，其中一个单词集合目前由

w2v

编码，以与其他单词集合进行比较。我想试试

transformers

，它可以提供比

w2v

更好的编码。但是，由于数据的性质，我根本不需要位置编码（因为单词集合没有顺序）

是否有一个预训练的转换器不会进行位置编码

？

您可以使用访问重复嵌入层。请看一下roberta的示例：

导入火炬
从transformers导入RobertaTokenizerFast，RobertaModel
t=RobertaTokenizerFast.from_pretrained（'roberta-base'））
m=RobertaModel.from_pretrained（'roberta-base'））
e=m.get_input_embeddings（）
myWordCollection=['This'，'That'，'stackoverflow'，'huggingface']
#一些单词将由几个标记（即几个向量）组成
i=t（myWordCollection，return\u attention\u mask=False，add\u special\u tokens=False）
#包含单词的字典：每个标记的向量
o={word:e（torch.tensor（ids））表示单词，zip中的id（myWordCollection，i.input_id）}

如果单词没有顺序，您可以分别对每个单词进行编码吗？我可能还没有完全理解这个问题。你只是对它们的嵌入层感兴趣还是对上下文化的嵌入感兴趣？我只对它们的嵌入层感兴趣。在推理时，我的数据将是一袋单词，需要按照每个单词的向量进行编码。这些词没有太多上下文信息。