Machine learning 机器学习-从文本中获取信息
我是机器学习和监督学习领域的新手 我的任务如下:从磁盘上电影文件的名称中,我想检索一些关于该文件的元数据。我无法控制文件的命名方式,但它有一个标题和一个或多个附加信息,如发布年份、分辨率、演员姓名等 目前,我已经开发了一个基于规则的启发式系统,在这个系统中,我将名称拆分为标记,并尝试理解每个单词单独或与相邻单词一起可以表示什么。例如,为了检测人名,我使用了一个英文姓名数据集,如果我在数据集中找到这个单词,我会将其作为潜在人名进行评分。如果它旁边有一个我记为潜在姓氏的单词,我就把这两个单词记为演员。等等它具有相当高的准确性,但是手动改变启发式分数来“教授”系统是乏味和不可预测的 这种基于规则的系统很难维护或进一步开发,因此,出于好奇,我开始探索机器学习领域。我想知道的是:Machine learning 机器学习-从文本中获取信息,machine-learning,heuristics,data-extraction,Machine Learning,Heuristics,Data Extraction,我是机器学习和监督学习领域的新手 我的任务如下:从磁盘上电影文件的名称中,我想检索一些关于该文件的元数据。我无法控制文件的命名方式,但它有一个标题和一个或多个附加信息,如发布年份、分辨率、演员姓名等 目前,我已经开发了一个基于规则的启发式系统,在这个系统中,我将名称拆分为标记,并尝试理解每个单词单独或与相邻单词一起可以表示什么。例如,为了检测人名,我使用了一个英文姓名数据集,如果我在数据集中找到这个单词,我会将其作为潜在人名进行评分。如果它旁边有一个我记为潜在姓氏的单词,我就把这两个单词记为演员
- 有没有关于这类问题的公开文献
- 鉴于可用数据集有限,ML是解决问题的好方法吗
- 我将如何继续调试或尝试理解这样一台机器的结果?我开发的“简单化”启发式引擎已经有问题了