Machine learning 实体类型重新引用:查找实体';从它的描述来看,它是一种优势类型

Machine learning 实体类型重新引用:查找实体';从它的描述来看,它是一种优势类型,machine-learning,nlp,named-entity-recognition,Machine Learning,Nlp,Named Entity Recognition,我一直在做一个研究项目。我有一个维基百科描述大量实体的数据库,包括运动员、政治家、演员等。目的是使用这些描述确定实体的类型。我可以访问一些预测实体类型的数据,这些数据非常准确这将是我的训练数据。我想做的是训练一个模型来预测其余数据的主要实体类型 我到目前为止所做的: 提取了实体Wiki描述的第一段H1、H2标题 提取wiki页面上实体的类别列表(任何页面上的底部“类别”部分 对于与两个或两个以上概念相关的实体来说,找到实体类型可能很困难,例如后来成为政治家的演员。 我想问一下如何利用我拥有的

我一直在做一个研究项目。我有一个维基百科描述大量实体的数据库,包括运动员、政治家、演员等。目的是使用这些描述确定实体的类型。我可以访问一些预测实体类型的数据,这些数据非常准确这将是我的训练数据。我想做的是训练一个模型来预测其余数据的主要实体类型

我到目前为止所做的:

  • 提取了实体Wiki描述的第一段H1、H2标题
  • 提取wiki页面上实体的类别列表(任何页面上的底部“类别”部分
对于与两个或两个以上概念相关的实体来说,找到实体类型可能很困难,例如后来成为政治家的演员。

我想问一下如何利用我拥有的原始数据创建模型?我应该使用哪些变量来训练模型? 还有什么自然语言处理技术可以对此有所帮助吗?我知道POS标记器在这种情况下会有所帮助

我在互联网上的搜索并不是很成功。我偶然发现了像这样的研究论文和博客,但它们都没有相关的信息。任何想法都将不胜感激。提前感谢


编辑1:

输入数据是实体维基百科页面的第一段。例如,我的输入是:

艾伦·斯图尔特·弗兰肯(生于1951年5月21日)是美国喜剧演员、作家、制片人、作家和政治家,2009年至2018年担任明尼苏达州的美国参议员。他在20世纪70年代和80年代因在电视喜剧节目《周六夜现场》(SNL)中的表演而闻名在担任了几十年的喜剧演员和作家后,他成为了著名的自由主义政治活动家,在美国航空电台主持了“艾尔·弗兰肯秀”


我提取的信息是,页面的第一段,所有“类别”(页面底部)的字符串,以及页面的所有标题。

从我收集的信息中,您希望有一个分类器,它接收文本输入,并根据预定义类别列表进行预测

我不确定你的专业水平,因此如果有其他人想了解这个主题,我将提供一个高水平的概述

像所有使用ML的NLP任务一样,您必须通过
特征化过程将
文本
域转换为
数字

  • 处理文本和标签
  • 确定相关特征
  • 创建特征的数字表示
  • 分类器的训练与测试
  • 处理文本和标签 文本可能有一些奇怪的标记或东西需要修改以使其更“干净”。这是文本规范化的标准步骤

    然后,您必须保留相关类别作为文本的标签

    最终会出现如下情况:

    For each wiki article:
        Normalise wiki article text
        Save associated categories labels with text for training
    
    确定相关特征 您似乎提到的一些功能包括:

  • 主导领域(演员、政治家)
  • 标题信息
  • 句法信息(POS标记)是局部的(标记级),但可以用于提取特定的特征,例如单词是否为专有名词

    创建特征的数字表示 幸运的是,有一些方法可以进行自动编码,比如doc2vec,它可以从文本中生成文档向量。然后,您可以添加其他看起来相关的定制功能

    然后,您将拥有与此文本以及标签(类别)相关的特征的向量表示

    这将成为您的培训数据

    分类器的训练与测试 现在,在您选择的分类器上进行训练和测试

    您的数据是一对多的,因为您将尝试预测多个标签

    试着做一些简单的事情,让它看起来像你期望的那样

    您应该使用交叉验证例程测试结果,例如使用标准度量(精度、召回率、F1)进行k倍验证

    澄清 为了帮助澄清,这个任务实际上不是命名实体识别任务。它是一种多标签分类任务,其中标签是维基百科页面上定义的类别


    命名实体识别是在文档中查找有意义的命名实体,例如人、地点。通常是名词。这通常是在标记级别上完成的,而您的任务似乎是在文档级别上完成的。

    我想提供帮助,但我需要知道您的输入文本是什么,以及您要预测的标签是什么?谢谢他问。我需要以某种方式提取Al Franklen的主导类型,演员或政治家。对于这个例子来说,可能不清楚,但对于一些有10年演艺生涯和1年从政经历的实体来说,输出应该是“演员”。好吧,这很混乱,因为你用描述说明你想要的是
    类型的实体在编辑
    中,提取的信息是所有“类别”的字符串。
    只编辑了页面上的类别还是某个人的名字?输入还将包含实体维基百科页面的第一段。我添加了一个答案,试图将此考虑在内。