Text 文本挖掘-从非结构化文本中提取标注栏名称_Text_Nlp_Text Mining_Named Entity Recognition

Text 文本挖掘-从非结构化文本中提取标注栏名称

text nlp

Text 文本挖掘-从非结构化文本中提取标注栏名称,text,nlp,text-mining,named-entity-recognition,Text,Nlp,Text Mining,Named Entity Recognition,我知道这是一个一般性的、开放性的问题。我基本上是在寻求帮助，以决定前进的道路，也许是一些阅读材料我正在研究一种算法，它可以进行非结构化文本挖掘，并试图从文本中提取一些特定的东西——乐队名称（单个艺术家、乐队等）。文本本身没有可预测的结构，但相对较小（1、2行文本）一些示例可能是（非真实事件）：现在，我正在考虑尝试一个分类器，但是文本似乎很小，无法为它提供任何真正的训练信息。可能还有其他几种文本挖掘技术、启发式方法或算法可以为此类问题产生良好的结果（或者可能没有算法会）由于数据的结构，预

我知道这是一个一般性的、开放性的问题。我基本上是在寻求帮助，以决定前进的道路，也许是一些阅读材料

我正在研究一种算法，它可以进行非结构化文本挖掘，并试图从文本中提取一些特定的东西——乐队名称（单个艺术家、乐队等）。文本本身没有可预测的结构，但相对较小（1、2行文本）

一些示例可能是（非真实事件）：

现在，我正在考虑尝试一个分类器，但是文本似乎很小，无法为它提供任何真正的训练信息。

可能还有其他几种文本挖掘技术、启发式方法或算法可以为此类问题产生良好的结果（或者可能没有算法会）

由于数据的结构，预先训练的模型可能会表现不佳。此外，一般的组织、位置和人员类别可能对您没有用处

我不认为文本本身太小，大多数NER系统一次只处理一个句子。因此，为您自己的培训集提供一个NER库可能会很好地工作，例如

如果你不想创建一个培训集，你需要一个包含所有乐队/艺术家的字典。那么你显然找不到未知的乐队/艺术家。

有一个简单的NER算法可以稍微简化任务：

将可能是（或不是）命名实体的单词在Google或Yahoo（通过API）中搜索两次：作为单独的单词和精确的短语（即带引号）。划分结果的数量。这是一个门槛（你是对的，因为这个问题对SO来说可能太开放了。我建议你搜索SO，以及整个网络，搜索关键词，如

命名实体识别/提取

，

NER

等，因为这将为你提供一些关于这一领域的实践和挑战的更精确的想法。虽然不是重复，但这是一个简单的问题。）estion：也许是一个好的开始。让我直截了当地说：你有你要找的乐队的名单吗，或者你是在找乐队的名字吗？我没有试过，但我怀疑，由于大写字母的数量，NER taggers在温布利体育场演唱会绿日之类的句子中可能会遇到麻烦。但是如果他们有，那么他们的o输出可以输入到分类器（或者从维基百科中提取的一个简单的条带列表）。是的，我想他们也会。但如果他们是在自定义数据集上训练的，像现在这样的大写字母就不行了。

Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera