Python 一个大型或多个小型文本分类模型
我正在对标记为数千个类别/子类别(与amazon产品数据集非常相似)的大型文本数据库(数百万个文本)进行分类 我的问题是,如果我能通过创建多个模型(例如Python 一个大型或多个小型文本分类模型,python,tensorflow,machine-learning,neural-network,text-classification,Python,Tensorflow,Machine Learning,Neural Network,Text Classification,我正在对标记为数千个类别/子类别(与amazon产品数据集非常相似)的大型文本数据库(数百万个文本)进行分类 我的问题是,如果我能通过创建多个模型(例如 获取主类别的一个模型(一个主模型) 为每个主要类别分别建立模型,以获得最终的子类别。(多种型号) 相比 一个巨大的模型覆盖所有文本和所有子类别 我想知道,对于一个模型来说,主类别及其子类别的文本中使用的词汇是否更容易(并且更小)和更精确?但是,如果主模型预测了错误的主类别,那么对正确的子类别的搜索将没有机会预测正确的结果 这方面有研究吗?
- 获取主类别的一个模型(一个主模型)
- 为每个主要类别分别建立模型,以获得最终的子类别。(多种型号) 相比
- 一个巨大的模型覆盖所有文本和所有子类别
非常感谢 不了解研究,但可以建议首先对主模型使用精度和召回矩阵(使用多种建模技术),如果所有类别的任何模型给出的精度和召回值都高于阈值,比如说99.5%,那么你就必须接受你的想法。如果你没能做到这一点,别担心,试试另一种方法,那就是尝试和观察。还有什么事请告诉我。谢谢。目前约占75-83%。问题是,有些子类别是“稀疏”的,这意味着它们没有分配给它们的许多文本,而其他子类别则有“数千”个文本,因此模型总是更容易与这些类别中的一个“匹配”。每个文本只属于一个类别,因此没有召回/精确性,对吗?如果文本分配正确,则计入准确性,不存在误报/误报。