Pytorch 变压器库中BertModel中隐藏的_状态元组的内容是如何安排的

Pytorch 变压器库中BertModel中隐藏的_状态元组的内容是如何安排的,pytorch,python-3.7,huggingface-transformers,Pytorch,Python 3.7,Huggingface Transformers,隐藏状态是一个由13个torch.FloatTensors组成的元组。每个张量的大小为:(批大小、序列长度、隐藏大小)。 根据文档,13个张量是嵌入层和12个编码器层的隐藏状态 我的问题: 是隐藏状态[0]嵌入层,而隐藏状态[12]是第12个编码器层还是 隐藏状态[0]是嵌入层,而隐藏状态[12]是第一个编码器层还是 隐藏状态[0]是第12个编码器层,而隐藏状态[12]是嵌入层还是 hidden\u states[0]是第一个编码器层,而hidden\u states[12]是嵌入层 我在其他任

隐藏状态是一个由13个
torch.FloatTensors
组成的元组。每个张量的大小为:
(批大小、序列长度、隐藏大小)
。 根据文档,13个张量是嵌入层和12个编码器层的隐藏状态

我的问题:

隐藏状态[0]
嵌入层,而
隐藏状态[12]
是第12个编码器层还是

隐藏状态[0]
是嵌入层,而
隐藏状态[12]
是第一个编码器层还是

隐藏状态[0]
是第12个编码器层,而
隐藏状态[12]
是嵌入层还是

hidden\u states[0]
是第一个编码器层,而
hidden\u states[12]
是嵌入层


我在其他任何地方都没有发现明确说明这一点。

查看for Bert模型,可以得出结论,隐藏状态[0]包含初始嵌入层的输出,元组中的其余元素包含每个层递增顺序的隐藏状态。简而言之,隐藏状态[1]包含第一层BERT的输出,隐藏状态[12]包含最后一层,即第12层。

查看for BERT模型,可以得出结论,隐藏状态[0]包含初始嵌入层的输出,元组中的其余元素按每层的递增顺序包含隐藏状态。简单地说,隐藏状态[1]包含第一层BERT的输出,而隐藏状态[12]包含最后一层,即第12层。

这是否回答了您的问题?是 啊所以很清楚,最终状态向量意味着最后一个编码层。谢谢这能回答你的问题吗?是 啊所以很清楚,最终状态向量意味着最后一个编码层。谢谢
model = BertModel.from_pretrained('bert-base-uncased', config=BertConfig.from_pretrained('bert-base-uncased',output_hidden_states=True))
outputs = model(input_ids) 
hidden_states = outputs[2]