Python 如何使用BERT层序列输出?

Python 如何使用BERT层序列输出?,python,tensorflow,deep-learning,Python,Tensorflow,Deep Learning,我正在读书 在类DisasterDetector中,在build_model()中,clf_output=sequence_output[:,0,:] . 然后应用sigmoid激活以生成模型输出 从上获取BertLayer的位置将序列输出的形状描述为[批次大小,最大长度,768]。为什么我们只选择第一个索引而不是最大长度维度(索引为0)?如果这只对应于输出序列中的第一个标记,而不对应于其他标记,为什么要在二进制分类任务中使用它 输出序列的第一个标记来自输入序列的第一个标记,即。[CLS]。 [

我正在读书

在类DisasterDetector中,在build_model()中,
clf_output=sequence_output[:,0,:]
. 然后应用sigmoid激活以生成模型输出


从上获取BertLayer的位置将序列输出的形状描述为
[批次大小,最大长度,768]
。为什么我们只选择第一个索引而不是最大长度维度(索引为0)?如果这只对应于输出序列中的第一个标记,而不对应于其他标记,为什么要在二进制分类任务中使用它

输出序列的第一个标记来自输入序列的第一个标记,即。[CLS]。 [CLS]被视为整个输入序列的代表。 你可以阅读原稿以便更好地理解它