Deep learning 文本分类中的网络预测_Deep Learning_Nlp_Text Classification_Unsupervised Learning

Deep learning 文本分类中的网络预测

deep-learning nlp

Deep learning 文本分类中的网络预测,deep-learning,nlp,text-classification,unsupervised-learning,Deep Learning,Nlp,Text Classification,Unsupervised Learning,我正在尝试调试一个模型，该模型使用一维卷积来对被人类标记为“适当”与“不适当”的文本进行分类，以发布在某个网站上。从误报（错误地预测“适当”）来看，我看到文本中大部分是听起来中性/积极的词，但传达的想法不好（例如：谈论“人口上限”）。为了解决这样一个案例，我可以想出一些方法来帮助模型认识到人口上限的主题（在本例中）不应该被归类为“适合”这个特定任务我遇到的问题是理解是什么导致模型预测事实上适当的消息“不适当”。例如，以下消息应被视为“适当”： “责任在于犯罪者。” 模型认为这不合适，但根据数据

我正在尝试调试一个模型，该模型使用一维卷积来对被人类标记为“适当”与“不适当”的文本进行分类，以发布在某个网站上。从误报（错误地预测“适当”）来看，我看到文本中大部分是听起来中性/积极的词，但传达的想法不好（例如：谈论“人口上限”）。为了解决这样一个案例，我可以想出一些方法来帮助模型认识到人口上限的主题（在本例中）不应该被归类为“适合”这个特定任务

我遇到的问题是理解是什么导致模型预测事实上适当的消息“不适当”。例如，以下消息应被视为“适当”：

“责任在于犯罪者。”

模型认为这不合适，但根据数据集的标记标准，这是一条有效的消息

问题: 给定一个模型，每个单词都有一个嵌入层，然后是几个1D convs+密集层，有哪些技术可以帮助我，是什么导致模型将该消息分类为这样，以及帮助模型学习的潜在方法

更新

事实证明，如果我用上面的示例短语一次替换一个单词，然后看看模型如何对结果短语进行分类，当我用几乎任何其他“积极”或“中性”单词替换“谎言”时，它将短语分类为“适当”。因此，模型似乎认识到“谎言”是一个非常非常糟糕的词。问题是：我如何创建一个功能或以其他方式帮助模型推广到其他方面？

也许在用于训练模型的数据集中，大多数包含单词“谎言”（和“相关”表达）的文本被人类标记为“不适当”，并且没有足够的“适当”用法（例如，“谎言是坏的”，“避免传播错误信息”）

还有一种情况是，许多例子与“虚假陈述”的含义有关，而与其他含义有关的例子则不多

这些是我能想到的一些原因，让它了解到含有“谎言”的文本更有可能是“不合适的”