Nlp 使用诸如BERT之类的预训练模型进行文档分类

Nlp 使用诸如BERT之类的预训练模型进行文档分类,nlp,bert-language-model,huggingface-transformers,document-classification,Nlp,Bert Language Model,Huggingface Transformers,Document Classification,我正在寻找分类文件的方法。例如,我有一堆带文本的文档,我想给文档贴上标签,标明它是否属于体育、食品、政治等。 我可以使用BERT(对于单词>500的文档)来完成此任务吗?或者是否有其他模型可以有效地完成此任务?BERT的最大序列长度为512个标记(注意,这通常远小于500个单词),因此您不能一次将整个文档输入到BERT。如果您仍然想使用该模型完成此任务,我建议您 将每个文档拆分为可由BERT处理的块(例如512个令牌或更少) 分别对所有文档块进行分类 根据最常预测的区块标签对整个文档进行分类,即

我正在寻找分类文件的方法。例如,我有一堆带文本的文档,我想给文档贴上标签,标明它是否属于体育、食品、政治等。
我可以使用BERT(对于单词>500的文档)来完成此任务吗?或者是否有其他模型可以有效地完成此任务?

BERT的最大序列长度为512个标记(注意,这通常远小于500个单词),因此您不能一次将整个文档输入到BERT。如果您仍然想使用该模型完成此任务,我建议您

  • 将每个文档拆分为可由BERT处理的块(例如512个令牌或更少)
  • 分别对所有文档块进行分类
  • 根据最常预测的区块标签对整个文档进行分类,即进行多数投票
  • 在这种情况下,您需要做的唯一修改是在BERT的顶部添加一个完全连接的层

    不过,这种方法可能相当昂贵。还有另一种方法,将文本文档表示为一袋词向量,然后在数据上训练分类器。如果你不熟悉弓,那么对它的理解是一个很好的起点。它可以作为各种分类器的特征向量,我建议您尝试使用SVM或kNN。

    发布的预训练模型能够处理多达4096个标记。