Text 基于ML的域特定命名enitty识别（NER）？_Text_Nlp_Machine Learning_Classification_Named Entity Recognition

Text 基于ML的域特定命名enitty识别（NER）？

text nlp machine-learning

Text 基于ML的域特定命名enitty识别（NER）？,text,nlp,machine-learning,classification,named-entity-recognition,Text,Nlp,Machine Learning,Classification,Named Entity Recognition,我需要建立一个分类器来识别特定领域中的网元。例如，如果我的域名是曲棍球或足球，那么分类器应该接受该域名中的NE，但不是它在网页上看到的所有代词。我的最终目标是通过NER改进文本分类对于在这个领域工作的人，请建议我如何构建这样一个分类器？谢谢如果您只想忽略代词，那么可以运行任何POS-tagger和任何NER算法（斯坦福软件包是一个流行的实现），然后忽略任何作为代词的命名实体。但是，代词可能指代命名实体，这可能对分类器的性能很重要，也可能不重要。唯一能确定的方法就是尝试一个稍微不相关的评论

我需要建立一个分类器来识别特定领域中的网元。例如，如果我的域名是曲棍球或足球，那么分类器应该接受该域名中的NE，但不是它在网页上看到的所有代词。我的最终目标是通过NER改进文本分类

对于在这个领域工作的人，请建议我如何构建这样一个分类器？

谢谢

如果您只想忽略代词，那么可以运行任何POS-tagger和任何NER算法（斯坦福软件包是一个流行的实现），然后忽略任何作为代词的命名实体。但是，代词可能指代命名实体，这可能对分类器的性能很重要，也可能不重要。唯一能确定的方法就是尝试

一个稍微不相关的评论-一个基于特定领域数据（如曲棍球）的NER系统更有可能从该领域中提取实体，因为它会看到一些实体出现在上下文中。根据系统的不同，它还可能从其他域中提取实体（如果我正确理解了您的问题，您可能不需要这些实体）。因为语法、字型模式等原因。

我认为类似的内容可能会对这一点有用。本质上，系统的输入是来自特定域的文本文档和您希望系统识别的特定于域的实体列表（如您案例中的曲棍球运动员）

根据他们在中的结果，他们在识别化学名称和疾病名称等方面表现出色。

我想做的是真正基于NER的网页分类。这就是为什么我选择了一个狭窄的领域，比如足球（而不是体育）。因此，我希望分类器能够识别该域上的代词（球员姓名、球队、物品制造公司等，它们都可能相关），但不是所有的代词。contd。分类器可以拾取几个不相关的实体，因为没有一个分类器具有100%的精度。我不明白POS-tagger后面跟着NER算法是如何忽略你提到的代词的。我想我想要的是你在“一个稍微无关的评论”中提到的东西；是的，分类器应该研究实体出现的上下文。因此，我必须通过手动创建这些实体的列表来收集培训数据，对吗？我提到的POS标记器不是用于NER分类器的（尽管POS标记是有用的功能）-它是用于您的后处理。在NE标记之后，我建议您删除所有POS标记为PP的命名实体。感谢您的回答。你能推荐一些有用的链接给我阅读吗？我经历了斯坦福德纳和林格派普·内尔科尼泽还有比这更好的吗？我想再和你谈谈。：）假设我在一个特定的网页中提取了网元。正如我提到的，我的最终目标是通过NEs改进文本分类。因此，如果我使用NEs的数量（PERS=x，LOC=y，ORG=z）作为特征以及普通文本（文档）分类特征，以提高分类精度，这是否可以？你觉得还好吗？