Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/ant/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 需要一个;字里行间;变压器类型_Nlp_Word2vec_Huggingface Transformers_Transformer - Fatal编程技术网

Nlp 需要一个;字里行间;变压器类型

Nlp 需要一个;字里行间;变压器类型,nlp,word2vec,huggingface-transformers,transformer,Nlp,Word2vec,Huggingface Transformers,Transformer,我有一个NLP项目,其中一个单词集合目前由w2v编码,以与其他单词集合进行比较。我想试试transformers,它可以提供比w2v更好的编码。但是,由于数据的性质,我根本不需要位置编码(因为单词集合没有顺序)是否有一个预训练的转换器不会进行位置编码?您可以使用访问重复嵌入层。请看一下roberta的示例: 导入火炬 从transformers导入RobertaTokenizerFast,RobertaModel t=RobertaTokenizerFast.from_pretrained('r

我有一个NLP项目,其中一个单词集合目前由
w2v
编码,以与其他单词集合进行比较。我想试试
transformers
,它可以提供比
w2v
更好的编码。但是,由于数据的性质,我根本不需要位置编码(因为单词集合没有顺序)
是否有一个预训练的转换器不会进行位置编码

您可以使用访问重复嵌入层。请看一下roberta的示例:

导入火炬
从transformers导入RobertaTokenizerFast,RobertaModel
t=RobertaTokenizerFast.from_pretrained('roberta-base'))
m=RobertaModel.from_pretrained('roberta-base'))
e=m.get_input_embeddings()
myWordCollection=['This','That','stackoverflow','huggingface']
#一些单词将由几个标记(即几个向量)组成
i=t(myWordCollection,return\u attention\u mask=False,add\u special\u tokens=False)
#包含单词的字典:每个标记的向量
o={word:e(torch.tensor(ids))表示单词,zip中的id(myWordCollection,i.input_id)}

如果单词没有顺序,您可以分别对每个单词进行编码吗?我可能还没有完全理解这个问题。你只是对它们的嵌入层感兴趣还是对上下文化的嵌入感兴趣?我只对它们的嵌入层感兴趣。在推理时,我的数据将是一袋单词,需要按照每个单词的向量进行编码。这些词没有太多上下文信息。