Nlp 从子单词标记编码中获取单词级编码

Nlp 从子单词标记编码中获取单词级编码,nlp,tokenize,bert-language-model,huggingface-transformers,Nlp,Tokenize,Bert Language Model,Huggingface Transformers,我正在研究使用预训练的BERT(“BERT-base-uncased”)模型从一堆句子中提取上下文化的单词级编码 WordPiect标记化将输入中的一些单词分解为子单词单元。可能是一个小问题,但我想知道将子单词标记的输出编码组合到单词级编码中最明智的方法是什么 平均子字编码是一种合理的方法吗?如果没有,还有更好的选择吗?直觉上,您的问题似乎类似于“如何获得良好的句子表示”,只是现在您还可以在大多数基于转换器的模型中使用句子的分类标记来获得句子表示。但是,这种令牌不可用于令牌级表示 在你的例子中,

我正在研究使用预训练的BERT(“BERT-base-uncased”)模型从一堆句子中提取上下文化的单词级编码

WordPiect标记化将输入中的一些单词分解为子单词单元。可能是一个小问题,但我想知道将子单词标记的输出编码组合到单词级编码中最明智的方法是什么


平均子字编码是一种合理的方法吗?如果没有,还有更好的选择吗?

直觉上,您的问题似乎类似于“如何获得良好的句子表示”,只是现在您还可以在大多数基于转换器的模型中使用句子的分类标记来获得句子表示。但是,这种令牌不可用于令牌级表示

在你的例子中,我认为有一些选择,但从我所看到的,人们通常使用平均值或最大值。换句话说:取子词单位的平均值,或取最大值。在我看来,平均是最直观的起点


请注意,平均值只是序列上的平均值。这意味着它不是超精确的(一个高值和一个低值的平均值与两个中间值相同),但它可能是最直接的。

我想这取决于您试图用这些嵌入解决的任务。你的目标是什么?相当一般的编码目的,我们想为一系列可能的使用情况对刺激进行特征化。单词出现在复杂的刺激(叙述)中,我们在单词级别上有元数据(例如,每个单词的词组),这就是为什么我们需要保留单词级别的编码。