Nlp 使用诸如BERT之类的预训练模型进行文档分类_Nlp_Bert Language Model_Huggingface Transformers_Document Classification

Nlp 使用诸如BERT之类的预训练模型进行文档分类

nlp

Nlp 使用诸如BERT之类的预训练模型进行文档分类,nlp,bert-language-model,huggingface-transformers,document-classification,Nlp,Bert Language Model,Huggingface Transformers,Document Classification,我正在寻找分类文件的方法。例如，我有一堆带文本的文档，我想给文档贴上标签，标明它是否属于体育、食品、政治等。我可以使用BERT（对于单词>500的文档）来完成此任务吗？或者是否有其他模型可以有效地完成此任务？BERT的最大序列长度为512个标记（注意，这通常远小于500个单词），因此您不能一次将整个文档输入到BERT。如果您仍然想使用该模型完成此任务，我建议您将每个文档拆分为可由BERT处理的块（例如512个令牌或更少）分别对所有文档块进行分类根据最常预测的区块标签对整个文档进行分类，即

我正在寻找分类文件的方法。例如，我有一堆带文本的文档，我想给文档贴上标签，标明它是否属于体育、食品、政治等。

我可以使用BERT（对于单词>500的文档）来完成此任务吗？或者是否有其他模型可以有效地完成此任务？

BERT的最大序列长度为512个标记（注意，这通常远小于500个单词），因此您不能一次将整个文档输入到BERT。如果您仍然想使用该模型完成此任务，我建议您

将每个文档拆分为可由BERT处理的块（例如512个令牌或更少）

分别对所有文档块进行分类

根据最常预测的区块标签对整个文档进行分类，即进行多数投票

在这种情况下，您需要做的唯一修改是在BERT的顶部添加一个完全连接的层

不过，这种方法可能相当昂贵。还有另一种方法，将文本文档表示为一袋词向量，然后在数据上训练分类器。如果你不熟悉弓，那么对它的理解是一个很好的起点。它可以作为各种分类器的特征向量，我建议您尝试使用SVM或kNN。

发布的预训练模型能够处理多达4096个标记。