Machine learning 机器学习-从文本中获取信息_Machine Learning_Heuristics_Data Extraction

Machine learning 机器学习-从文本中获取信息

machine-learning

Machine learning 机器学习-从文本中获取信息,machine-learning,heuristics,data-extraction,Machine Learning,Heuristics,Data Extraction,我是机器学习和监督学习领域的新手我的任务如下：从磁盘上电影文件的名称中，我想检索一些关于该文件的元数据。我无法控制文件的命名方式，但它有一个标题和一个或多个附加信息，如发布年份、分辨率、演员姓名等目前，我已经开发了一个基于规则的启发式系统，在这个系统中，我将名称拆分为标记，并尝试理解每个单词单独或与相邻单词一起可以表示什么。例如，为了检测人名，我使用了一个英文姓名数据集，如果我在数据集中找到这个单词，我会将其作为潜在人名进行评分。如果它旁边有一个我记为潜在姓氏的单词，我就把这两个单词记为演员

我是机器学习和监督学习领域的新手

我的任务如下：从磁盘上电影文件的名称中，我想检索一些关于该文件的元数据。我无法控制文件的命名方式，但它有一个标题和一个或多个附加信息，如发布年份、分辨率、演员姓名等

目前，我已经开发了一个基于规则的启发式系统，在这个系统中，我将名称拆分为标记，并尝试理解每个单词单独或与相邻单词一起可以表示什么。例如，为了检测人名，我使用了一个英文姓名数据集，如果我在数据集中找到这个单词，我会将其作为潜在人名进行评分。如果它旁边有一个我记为潜在姓氏的单词，我就把这两个单词记为演员。等等它具有相当高的准确性，但是手动改变启发式分数来“教授”系统是乏味和不可预测的

这种基于规则的系统很难维护或进一步开发，因此，出于好奇，我开始探索机器学习领域。我想知道的是：

有没有关于这类问题的公开文献
鉴于可用数据集有限，ML是解决问题的好方法吗
我将如何继续调试或尝试理解这样一台机器的结果？我开发的“简单化”启发式引擎已经有问题了

谢谢，如果您有任何建议，我们将不胜感激。

您需要了解NLP（自然语言处理）。NLP处理文本处理和其他事情；例如，实体识别和标记

以下是使用Spacy库的示例：

不久前，我做了一件类似的事情，你可以在这里看到：