Python 有没有可能让神经网络根据分类文件对实体进行分类?

Python 有没有可能让神经网络根据分类文件对实体进行分类?,python,keras,neural-network,conv-neural-network,multilabel-classification,Python,Keras,Neural Network,Conv Neural Network,Multilabel Classification,我用独立的类别标记了一个文本数据集。在Keras中运行CNN分类器时,我获得了>90%的准确率 我的短信是客户评论,我真的很喜欢这款手机的摄像头。课程包括手机摄像头、内存等 我要搜索的是,当分类器标记表示类的实体时,是否可以用出现在句子中的类别标记句子。或者更具体地说:我如何提取输入句子中使Keras中的CNN网络选择的部分,即分类为1、2或更多类别?我的pipilene一般用于类似任务 我不使用nn来解决整个任务 首先,我不直接使用NNs来标记单独的实体,如照相机、屏幕等。有一些很好的方法可能

我用独立的类别标记了一个文本数据集。在Keras中运行CNN分类器时,我获得了>90%的准确率

我的短信是客户评论,我真的很喜欢这款手机的摄像头。课程包括手机摄像头、内存等


我要搜索的是,当分类器标记表示类的实体时,是否可以用出现在句子中的类别标记句子。或者更具体地说:我如何提取输入句子中使Keras中的CNN网络选择的部分,即分类为1、2或更多类别?

我的pipilene一般用于类似任务

我不使用nn来解决整个任务 首先,我不直接使用NNs来标记单独的实体,如照相机、屏幕等。有一些很好的方法可能很有用,比如a或just,但在我的例子中它并没有起作用。 我想,这种架构不太好用,因为有很多噪音,也就是说,我很高兴我在我的数据集中买了这台电视机。总体约为75%,其余数据不太干净

因此,我执行了一些额外的操作:

把句子分成几段有时它们包含所需的实体 用手将这些块标记为无用的,如“我很高兴/很不高兴”,以及有用的:好相机、坏手机等。 训练分类器对这些数据进行分类。 关于管道的详细信息 如何识别实体 我只是使用regexp和词性标记来分割数据。但我使用的是俄语数据集,所以没有适合俄语的免费语法解析器/库。如果您使用英语或其他语言(在spacy或nltk库中有很好的表现),您可以使用它来解析单独的实体。此外,英语语法与俄语相比是如此严格——这可能会使你的任务更容易。 无论如何,试着从正则表达式和解析开始

包含相机、电池等主题关键字的词汇表。。。你也很有帮助

另一种识别实体的方法是topic modellig-PLSA/LDA rocks,但我认为这很难调整,因为文本中有很多噪音。你会得到很多主题{快乐,高兴,买来的,家庭,}等等,但你还是可以尝试主题建模

此外,您还可以创建一个数据集,其中每个文本都有一个实体标签,并用注意力训练一个NN,这样您就可以通过高度注意来识别它,但是创建这个数据集非常繁琐

创建数据集并训练NN 只有当命名实体的质量达到可接受的水平时,我才开始创建数据集,因为如果以后更改此基脚部分,您可能会丢弃数据集并重新开始

最好决定哪些标签只使用一次,然后不要更改它们——这是工作的关键部分

在这样的数据上训练神经网络可能是工作中最简单的部分——对于整个文本来说,任何好的分类器都是如此。即使不是nn,但更简单的计算器也可能有用-使用混合、装袋等

可能的麻烦 有一个陷阱-一些评论/功能对NN分类器甚至对人类来说都不太明显,比如声音大或变得很热。通常,它们取决于上下文。因此,我使用我们团队的一点帮助来标记一个数据集-因此,每个条目都由一群人标记,以获得更好的质量。此外,我还使用上下文标签(产品的类别)为每个实体添加上下文:因此,音响系统和洗衣机的响亮声音具有争议情绪,模特可以学习它。大多数情况下,通过数据库/web解析可以轻松访问类别标签


希望有帮助,我也希望有人知道更好的方法。

您想为摄像头、内存等实体指定一个标签,即/good/bad/normal,还是只标记一个带有类别的文本?例如,我真的很喜欢这款手机的摄像头。-会有标签,相机,手机?首先,我想知道一个句子里有哪些类别。稍后,我想为每个类别分类好的/坏的/正常的情绪,但也可能是其他事情,如重要性、主观性等。由于一句话中经常有几个类别,我无法对总体情绪或重要性进行分类。因此,我在客户评论处理方面也有同样的问题。据我所知,没有现成的NN体系结构可以完成这项任务。我使用文本预处理分割句子来分离实体,然后用标签good/bad/norm/neutral等手工标记数据集,然后训练分类器。如果这个方法适合你们,我可以像这样写出来,然后用通用管道回答。这会有帮助。谢谢也许,其他人以后可以帮助我们找到另一个解决方案。