Text 命名实体作为文本分类中的一项功能? 在现有的文本分类(监督)技术中,为什么我们不考虑文本中的命名实体(NE)作为训练和测试的一个特征?您认为使用网元作为功能可以提高精度吗?

Text 命名实体作为文本分类中的一项功能? 在现有的文本分类(监督)技术中,为什么我们不考虑文本中的命名实体(NE)作为训练和测试的一个特征?您认为使用网元作为功能可以提高精度吗?,text,machine-learning,classification,named-entity-recognition,Text,Machine Learning,Classification,Named Entity Recognition,这在很大程度上取决于您工作的领域。您必须根据域定义功能。比如说,在搜索引擎中,你正在学习排名问题,生成一个动态排名,在这里,NE不会给你任何好处。这在很大程度上取决于您正在工作的领域以及定义的输出分类标签(监督学习) 现在假设您正在对足球、电影或政治等相关文档进行分类。在这种情况下,命名实体可以工作。我在这里给你举个例子,假设你正在使用一个神经网络,将文件分类为足球、电影、政治等。现在假设一份文件出现在“莱昂内尔·梅西应邀出席“社交网络”的首映式,包括杰西·艾森伯格、安德鲁·加菲尔德和贾斯汀·汀

这在很大程度上取决于您工作的领域。您必须根据域定义功能。比如说,在搜索引擎中,你正在学习排名问题,生成一个动态排名,在这里,NE不会给你任何好处。这在很大程度上取决于您正在工作的领域以及定义的输出分类标签(监督学习)

现在假设您正在对足球、电影或政治等相关文档进行分类。在这种情况下,命名实体可以工作。我在这里给你举个例子,假设你正在使用一个神经网络,将文件分类为足球、电影、政治等。现在假设一份文件出现在“莱昂内尔·梅西应邀出席“社交网络”的首映式,包括杰西·艾森伯格、安德鲁·加菲尔德和贾斯汀·汀布莱克在内的演员和剧组成员也在场”在这里,命名实体(输入特征)和电影(输出定义)之间的联系将更加紧密,因此它将被归类为电影文档

另一个例子,假设我们的文档是“汤姆·克鲁斯在电影《最后一场足球赛》中扮演莱昂内尔·梅西的角色”“这样做的好处是,你的神经网络已经知道,当一个演员和一个足球运动员在一份文件中出现时,很有可能是一部电影。同样,这取决于数据和培训,也可能是相反的(但这就是学习的全部内容;查看过去的数据)


所以我的答案是试试看,没有人阻止你把实体命名为特征。这可能对您正在工作的领域有所帮助。

请举例说明您想说的内容。我的意思是,对于我将要培训和测试的每个文档,如果我将网元数(PERS=x,LOC=y,ORG=z)与普通文本(文档)一起用作特征,是否会提高准确性分类功能?嘿,非常感谢你的回答。这在某种程度上增强了我的能量:)是的,我专注于一个领域,正如你所说的,这个领域相当狭窄,比如棒球、足球。我担心的是,即使在传统的基于术语频率(TF)的文本(文档)分类中,我们不是隐式地使用NEs吗?因为我们使用术语,然后NEs是术语?这是另一种传统方法:即无监督(聚类)学习,它们使用LSI来降低特征向量的维数。你看这里有没有一种合并NER的方法?