Text 文本挖掘-从非结构化文本中提取标注栏名称

Text 文本挖掘-从非结构化文本中提取标注栏名称,text,nlp,text-mining,named-entity-recognition,Text,Nlp,Text Mining,Named Entity Recognition,我知道这是一个一般性的、开放性的问题。我基本上是在寻求帮助,以决定前进的道路,也许是一些阅读材料 我正在研究一种算法,它可以进行非结构化文本挖掘,并试图从文本中提取一些特定的东西——乐队名称(单个艺术家、乐队等)。文本本身没有可预测的结构,但相对较小(1、2行文本) 一些示例可能是(非真实事件): 现在,我正在考虑尝试一个分类器,但是文本似乎很小,无法为它提供任何真正的训练信息。 可能还有其他几种文本挖掘技术、启发式方法或算法可以为此类问题产生良好的结果(或者可能没有算法会) 由于数据的结构,预

我知道这是一个一般性的、开放性的问题。我基本上是在寻求帮助,以决定前进的道路,也许是一些阅读材料

我正在研究一种算法,它可以进行非结构化文本挖掘,并试图从文本中提取一些特定的东西——乐队名称(单个艺术家、乐队等)。文本本身没有可预测的结构,但相对较小(1、2行文本)

一些示例可能是(非真实事件):

现在,我正在考虑尝试一个分类器,但是文本似乎很小,无法为它提供任何真正的训练信息。
可能还有其他几种文本挖掘技术、启发式方法或算法可以为此类问题产生良好的结果(或者可能没有算法会)

由于数据的结构,预先训练的模型可能会表现不佳。此外,一般的组织、位置和人员类别可能对您没有用处

我不认为文本本身太小,大多数NER系统一次只处理一个句子。因此,为您自己的培训集提供一个NER库可能会很好地工作,例如


如果你不想创建一个培训集,你需要一个包含所有乐队/艺术家的字典。那么你显然找不到未知的乐队/艺术家。

有一个简单的NER算法可以稍微简化任务:
将可能是(或不是)命名实体的单词在Google或Yahoo(通过API)中搜索两次:作为单独的单词和精确的短语(即带引号)。划分结果的数量。这是一个门槛(你是对的,因为这个问题对SO来说可能太开放了。我建议你搜索SO,以及整个网络,搜索关键词,如
命名实体识别/提取
NER
等,因为这将为你提供一些关于这一领域的实践和挑战的更精确的想法。虽然不是重复,但这是一个简单的问题。)estion:也许是一个好的开始。让我直截了当地说:你有你要找的乐队的名单吗,或者你是在找乐队的名字吗?我没有试过,但我怀疑,由于大写字母的数量,NER taggers在温布利体育场演唱会绿日之类的句子中可能会遇到麻烦。但是如果他们有,那么他们的o输出可以输入到分类器(或者从维基百科中提取的一个简单的条带列表)。是的,我想他们也会。但如果他们是在自定义数据集上训练的,像现在这样的大写字母就不行了。
Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera