Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/342.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 一个大型或多个小型文本分类模型_Python_Tensorflow_Machine Learning_Neural Network_Text Classification - Fatal编程技术网

Python 一个大型或多个小型文本分类模型

Python 一个大型或多个小型文本分类模型,python,tensorflow,machine-learning,neural-network,text-classification,Python,Tensorflow,Machine Learning,Neural Network,Text Classification,我正在对标记为数千个类别/子类别(与amazon产品数据集非常相似)的大型文本数据库(数百万个文本)进行分类 我的问题是,如果我能通过创建多个模型(例如 获取主类别的一个模型(一个主模型) 为每个主要类别分别建立模型,以获得最终的子类别。(多种型号) 相比 一个巨大的模型覆盖所有文本和所有子类别 我想知道,对于一个模型来说,主类别及其子类别的文本中使用的词汇是否更容易(并且更小)和更精确?但是,如果主模型预测了错误的主类别,那么对正确的子类别的搜索将没有机会预测正确的结果 这方面有研究吗?

我正在对标记为数千个类别/子类别(与amazon产品数据集非常相似)的大型文本数据库(数百万个文本)进行分类

我的问题是,如果我能通过创建多个模型(例如

  • 获取主类别的一个模型(一个主模型)
  • 为每个主要类别分别建立模型,以获得最终的子类别。(多种型号)

    相比

  • 一个巨大的模型覆盖所有文本和所有子类别

我想知道,对于一个模型来说,主类别及其子类别的文本中使用的词汇是否更容易(并且更小)和更精确?但是,如果主模型预测了错误的主类别,那么对正确的子类别的搜索将没有机会预测正确的结果

这方面有研究吗? 有什么经验吗?
非常感谢

不了解研究,但可以建议首先对主模型使用精度和召回矩阵(使用多种建模技术),如果所有类别的任何模型给出的精度和召回值都高于阈值,比如说99.5%,那么你就必须接受你的想法。如果你没能做到这一点,别担心,试试另一种方法,那就是尝试和观察。还有什么事请告诉我。谢谢。

目前约占75-83%。问题是,有些子类别是“稀疏”的,这意味着它们没有分配给它们的许多文本,而其他子类别则有“数千”个文本,因此模型总是更容易与这些类别中的一个“匹配”。每个文本只属于一个类别,因此没有召回/精确性,对吗?如果文本分配正确,则计入准确性,不存在误报/误报。