Machine learning 机器学习-从文本中获取信息

Machine learning 机器学习-从文本中获取信息,machine-learning,heuristics,data-extraction,Machine Learning,Heuristics,Data Extraction,我是机器学习和监督学习领域的新手 我的任务如下:从磁盘上电影文件的名称中,我想检索一些关于该文件的元数据。我无法控制文件的命名方式,但它有一个标题和一个或多个附加信息,如发布年份、分辨率、演员姓名等 目前,我已经开发了一个基于规则的启发式系统,在这个系统中,我将名称拆分为标记,并尝试理解每个单词单独或与相邻单词一起可以表示什么。例如,为了检测人名,我使用了一个英文姓名数据集,如果我在数据集中找到这个单词,我会将其作为潜在人名进行评分。如果它旁边有一个我记为潜在姓氏的单词,我就把这两个单词记为演员

我是机器学习和监督学习领域的新手

我的任务如下:从磁盘上电影文件的名称中,我想检索一些关于该文件的元数据。我无法控制文件的命名方式,但它有一个标题和一个或多个附加信息,如发布年份、分辨率、演员姓名等

目前,我已经开发了一个基于规则的启发式系统,在这个系统中,我将名称拆分为标记,并尝试理解每个单词单独或与相邻单词一起可以表示什么。例如,为了检测人名,我使用了一个英文姓名数据集,如果我在数据集中找到这个单词,我会将其作为潜在人名进行评分。如果它旁边有一个我记为潜在姓氏的单词,我就把这两个单词记为演员。等等它具有相当高的准确性,但是手动改变启发式分数来“教授”系统是乏味和不可预测的

这种基于规则的系统很难维护或进一步开发,因此,出于好奇,我开始探索机器学习领域。我想知道的是:

  • 有没有关于这类问题的公开文献
  • 鉴于可用数据集有限,ML是解决问题的好方法吗
  • 我将如何继续调试或尝试理解这样一台机器的结果?我开发的“简单化”启发式引擎已经有问题了
谢谢,如果您有任何建议,我们将不胜感激。

您需要了解NLP(自然语言处理)。NLP处理文本处理和其他事情;例如,实体识别和标记

以下是使用Spacy库的示例:

不久前,我做了一件类似的事情,你可以在这里看到: