Python 如何将工艺语料库中的XML NER数据转换为spaCy';s JSON格式?

Python 如何将工艺语料库中的XML NER数据转换为spaCy';s JSON格式?,python,nlp,bioinformatics,spacy,ner,Python,Nlp,Bioinformatics,Spacy,Ner,如何使用spaCy for生物医学NER构建命名实体识别(NER)模型? 我很难将该语料库中提供的xml文件预处理为spacy所使用的任何格式,任何小小的帮助都将不胜感激。 我首先将xml文件转换为json格式,但spacy不接受这种格式spacy所期望的训练数据格式是什么?我甚至尝试构建自己的NER模型,但无法预处理本文给出的xml文件 以下是使用spacy训练NER模型的示例,包括训练数据的预期格式(来自): 随机导入 进口空间 列车组数据=[ (“优步每周突破100万美元,{“实体”:[(

如何使用spaCy for生物医学NER构建命名实体识别(NER)模型?

我很难将该语料库中提供的
xml
文件预处理为
spacy
所使用的任何格式,任何小小的帮助都将不胜感激。 我首先将
xml
文件转换为
json
格式,但
spacy
不接受这种格式spacy所期望的训练数据格式是什么?我甚至尝试构建自己的
NER
模型,但无法预处理本文给出的
xml
文件

以下是使用spacy训练NER模型的示例,包括训练数据的预期格式(来自):

随机导入
进口空间
列车组数据=[
(“优步每周突破100万美元,{“实体”:[(0,4,“组织”)]}),
(“谷歌重新命名其商业应用程序”{“实体”:[(0,6,“ORG”)]}]
nlp=空间空白(“en”)
optimizer=nlp.begin\u training()
对于范围(20)内的i:
随机。随机(训练数据)
对于文本,列_数据中的注释:
update([text],[annotations],sgd=optimizer)
nlp.到U盘(“/model”)
我正在使用的XML文件可以在线获得。示例记录如下所示:


摘要
摘要
141
乳腺癌是女性最常见的肿瘤,在近三分之二的病例中,肿瘤表达雌激素受体α(ERAPHA,由ESR1编码)。在此,我们对16个根据ESR1表达分类的乳腺癌组织和12个全血样本进行了全外显子组测序,并在ESR1高表达的癌组织中检测到310个体细胞突变。在经不同深度测序器验证的体细胞突变中,一种新的无义体细胞突变,c.2830c>T;p、 在一名患者的乳腺癌中检测到转录调节器开关独立的3个家族成员A(SIN3A)中的Gln944*。与ERalpha的核定位相反,部分突变蛋白定位在细胞质中,并诱导ESR1 mRNA显著增加。SIN3A突变明显促进MCF7细胞增殖。在具有SIN3A c.2830 c>T突变的乳腺癌患者的组织切片中,在观察到细胞核增大的肿瘤区域内检测到细胞质SIN3A定位。在Kaplan-Meier图上,SIN3A mRNA的减少与ER阳性乳腺癌的复发相关。这些观察结果表明,SIN3A突变由于其细胞质定位而失去其转录抑制功能,并且这种抑制可能有助于乳腺癌的进展。
2099
基因
47906
雌激素受体α
2099
基因
47906
雌激素受体
2099
基因
47906
ESR1
2099
基因
47906
ESR1
2099
基因
47906
ESR1
25942
基因
32124
SIN3A
2099
基因
47906
雌激素受体
2099
基因
47906
ESR1
25942
基因
32124
SIN3A
25942
基因
32124
SIN3A
25942
基因
32124
SIN3A
25942
基因
32124
SIN3A
25942
基因
32124
SIN3A
9606
种
女人
9606
种
病人
9606
种
病人
29278
种
表达
29278
种
表达
c、 2830C>T
脱氧核糖核酸
c、 2830 c>T
CVCL:0031
牢房
MCF7
网格:D001943
疾病
乳腺癌
网格:D001943
疾病
乳腺癌
网格:D001943
疾病
乳腺癌
网格:D001943
疾病
乳腺癌
网格:D009369
疾病
巨蟹座
p、 Q944*
蛋白质突变
p、 Gln944*
网格:D009369
疾病
肿瘤
网格:D009369
疾病
肿瘤
c、 2830C>T
脱氧核糖核酸
c、 2830 c>T
网格:D001943
疾病
乳腺癌
网格:D009369
疾病
肿瘤
网格:D001943
疾病
乳腺癌

这里有一些代码可以帮助您继续。这不是一个完整的解决方案,但是您提出的问题非常困难,并且您没有任何启动代码

它不跟踪
标识符
NCBI同系物
属性,但我认为它们可以单独存储在字典中

将xml.etree.cElementTree作为ET导入
进口空间
nlp=spacy.load('en\u core\u web\u sm')
#这是XML文档的一个子级
# https://www.ncbi.nlm.nih.gov/research/pubtator-api/publications/export/biocxml?pmcids=PMC6207735
文章_string=“”
摘要
摘要
141
乳腺癌是女性最常见的肿瘤,在近三分之二的病例中,肿瘤表达雌激素受体α(ERAPHA,由ESR1编码)在这里,我们对16个根据ESR1表达分类的乳腺癌组织和12个全血样本进行了全外显子组测序,并在高水平ESR1表达的癌组织中检测到310个体细胞突变。在经不同深度测序器验证的体细胞突变中,一个新的无义体细胞突变,c.2830 c>T;p.Gln944*,转录调节开关独立的3个家族成员A(SIN3A)在一名患者的乳腺癌中检测到。与ERalpha的核定位相反,部分突变蛋白定位在细胞质中,并诱导ESR1 mRNA显著增加。SIN3A突变明显增强了MCF7细胞的增殖。在SIN3A c.2830 c>T突变的乳腺癌患者的组织切片中,在观察到细胞核增大的肿瘤区域内检测到细胞质SIN3A定位。在Kaplan-Meier图上,SIN3A mRNA的减少与ER阳性乳腺癌的复发相关。这些观察结果表明,SIN3A突变由于其细胞质定位而失去其转录抑制功能这种抑制可能导致乳腺癌的进展。
2099
基因
47906
雌激素受体α
2099
基因
47906
雌激素受体
2099
基因
47906
ESR1
2099
基因
47906
ESR1
2099
基因
47906
ESR1
25942
基因
32124
SIN3A
2099
基因
47906
雌激素受体
2099
基因
47906
ESR1
25942
基因
32124
SIN3A
25942
基因
32124
SIN3A
25942
基因
32124
SIN3A
25942
基因
32124
SIN3A
25942
基因
32124
SIN3A
9606
种
女人
9606
种
病人
9606
种
病人
29278
种
表达
29278
种
表达
c、 2830C>T
德纳穆塔特