Python 命名实体识别-与字典直接匹配

Python 命名实体识别-与字典直接匹配,python,spacy,ner,Python,Spacy,Ner,我想使用命名实体识别(NER)来识别文本中与临床概念一致的单词或短语 我有一本字典,里面有诊断描述和标签代码。前两行的示例: ICD10 ICD10Term ---------------- A00 Cholera A000 Cholera due to Vibrio cholerae 01, biovar cholerae 首先,我想从直接匹配字典开始,但我不确定该怎么做。我应该只搜索字典是否包含某个字符串吗?还是应该使用软件包或工具 我发现空间查找: 我不知道如何大规模使用这个

我想使用命名实体识别(NER)来识别文本中与临床概念一致的单词或短语

我有一本字典,里面有诊断描述和标签代码。前两行的示例:

ICD10  ICD10Term
----------------
A00    Cholera
A000   Cholera due to Vibrio cholerae 01, biovar cholerae
首先,我想从直接匹配字典开始,但我不确定该怎么做。我应该只搜索字典是否包含某个字符串吗?还是应该使用软件包或工具

我发现
空间查找

我不知道如何大规模使用这个软件包,因为我有很多txt文件和字典


另外,您还可以向我推荐其他软件包\工具吗?

您必须首先培训自己的NER型号才能做到这一点


根据spaCy要求准备数据集,然后训练模型。然后您的模型应该能够检测实体。

我将使用spaCy的
pretrain
功能首先将语言模型更新到您的域。然后从头开始训练NER-

我不应该使用直接马赫数或模糊匹配在数据集中找到医学术语吗?一些医学词汇在一起有不同的含义,所以我认为在找到医学术语之前不应该标记。对不起,我是这个领域的新手,所以我不确定我说的是否正确。