Neural network 如何计算伯特模型中的参数数量?

Neural network 如何计算伯特模型中的参数数量?,neural-network,nlp,bert-language-model,Neural Network,Nlp,Bert Language Model,Devlin&Co.针对基本模型尺寸110M参数(即L=12,H=768,A=12)计算的论文“BERT:语言理解深度双向变压器的预培训”,其中L=层数,H=隐藏尺寸,A=自我注意操作数。据我所知,神经网络中的参数通常是层间“权重和偏差”的计数。那么,根据给定的信息,这是如何计算的呢?12768768*12?试着看看:

Devlin&Co.针对基本模型尺寸110M参数(即L=12,H=768,A=12)计算的论文“BERT:语言理解深度双向变压器的预培训”,其中L=层数,H=隐藏尺寸,A=自我注意操作数。据我所知,神经网络中的参数通常是层间“权重和偏差”的计数。那么,根据给定的信息,这是如何计算的呢?12768768*12?

试着看看: