Python 一个大型或多个小型文本分类模型_Python_Tensorflow_Machine Learning_Neural Network_Text Classification

Python 一个大型或多个小型文本分类模型

python tensorflow machine-learning neural-network

Python 一个大型或多个小型文本分类模型,python,tensorflow,machine-learning,neural-network,text-classification,Python,Tensorflow,Machine Learning,Neural Network,Text Classification,我正在对标记为数千个类别/子类别（与amazon产品数据集非常相似）的大型文本数据库（数百万个文本）进行分类我的问题是，如果我能通过创建多个模型（例如获取主类别的一个模型（一个主模型）为每个主要类别分别建立模型，以获得最终的子类别。（多种型号）相比一个巨大的模型覆盖所有文本和所有子类别我想知道，对于一个模型来说，主类别及其子类别的文本中使用的词汇是否更容易（并且更小）和更精确？但是，如果主模型预测了错误的主类别，那么对正确的子类别的搜索将没有机会预测正确的结果这方面有研究吗？

我正在对标记为数千个类别/子类别（与amazon产品数据集非常相似）的大型文本数据库（数百万个文本）进行分类

我的问题是，如果我能通过创建多个模型（例如

获取主类别的一个模型（一个主模型）
为每个主要类别分别建立模型，以获得最终的子类别。（多种型号）
相比
一个巨大的模型覆盖所有文本和所有子类别

我想知道，对于一个模型来说，主类别及其子类别的文本中使用的词汇是否更容易（并且更小）和更精确？但是，如果主模型预测了错误的主类别，那么对正确的子类别的搜索将没有机会预测正确的结果

这方面有研究吗？有什么经验吗？

非常感谢

不了解研究，但可以建议首先对主模型使用精度和召回矩阵（使用多种建模技术），如果所有类别的任何模型给出的精度和召回值都高于阈值，比如说99.5%，那么你就必须接受你的想法。如果你没能做到这一点，别担心，试试另一种方法，那就是尝试和观察。还有什么事请告诉我。谢谢。

目前约占75-83%。问题是，有些子类别是“稀疏”的，这意味着它们没有分配给它们的许多文本，而其他子类别则有“数千”个文本，因此模型总是更容易与这些类别中的一个“匹配”。每个文本只属于一个类别，因此没有召回/精确性，对吗？如果文本分配正确，则计入准确性，不存在误报/误报。