Javascript 机器学习,从字符串中提取信息
假设我正在创建一个小的chrome扩展(因此我的大部分代码都是JS)。并且给定一个字符串列表,例如: 艺人-歌曲名称 艺术家,歌曲名称 歌曲名称-艺术家 无关信息-歌曲名称-艺术家 等等 我只需要从字符串中提取歌曲名称,但是,我无法预测字符串可能出现的所有形式 所以我的问题是提取这些信息的最佳方法是什么?是机器学习吗?如果是这样,代码可以用JS编写,还是应该使用API?或者,除了机器学习之外,还有其他解决方案吗 附言 我知道这个问题并没有真正遵循这个网站上可以提问的问题的指导原则,我知道这是一种开放性和模糊性的问题,但我想不出还有什么地方可以问这个问题,所以Javascript 机器学习,从字符串中提取信息,javascript,google-chrome-extension,machine-learning,Javascript,Google Chrome Extension,Machine Learning,假设我正在创建一个小的chrome扩展(因此我的大部分代码都是JS)。并且给定一个字符串列表,例如: 艺人-歌曲名称 艺术家,歌曲名称 歌曲名称-艺术家 无关信息-歌曲名称-艺术家 等等 我只需要从字符串中提取歌曲名称,但是,我无法预测字符串可能出现的所有形式 所以我的问题是提取这些信息的最佳方法是什么?是机器学习吗?如果是这样,代码可以用JS编写,还是应该使用API?或者,除了机器学习之外,还有其他解决方案吗 附言 我知道这个问题并没有真正遵循这个网站上可以提问的问题的指导原则,我知道这是一种
提前谢谢。机器学习涉及大量统计数据。所以,简而言之,“机器”必须学习的是一个词或一组词是否可能是歌曲名或艺术家 这就是学习部分的起点:某人或其他机器必须从一开始就“教”机器作为起点 然而,即使是人类也不知道“飓风”是歌曲还是乐队名。为了找到正确的分类,需要上下文信息 也许,使用一个已经提供了这些信息的开放API会是一个更好的方法。您可能想看看这个问题:
可以工作的东西的草图:
- 为所有可能的分隔字符(逗号、连字符等)生成regexp
- 使用此regexp将字符串分割为几段
- 对于连体钉,假设这是一个标题
- 对于两段式字符串,假定较长的一段为标题,较短的一段为艺术家
- 列出艺术家和作品(或您的全球数据库,以获得更好的效果)
- 如果你的一些作品与某位艺术家的作品不一样,那可能是个错误
- 对于三件或更多件弦,根据您的列表确定艺术家
- 对于其余部分,假设索引较低的部分(接近字符串的开头)是一个标题
- 最终,如果你的文章被标为标题,你可以通过谷歌API进行搜索
当然,这并不理想,但我认为你不会期望它。这与机器学习无关。你为什么有这些弦,它们从哪里来?