Python 3.x 如何使用NLTK软件包获取文本中有关人口/国家的信息

Python 3.x 如何使用NLTK软件包获取文本中有关人口/国家的信息,python-3.x,nltk,ner,Python 3.x,Nltk,Ner,我有关于人口和国家信息的文本。我想得到人口和国家的净入学率 我的发言如下: text_sent=日本动脉闭塞性疾病中的抗原。使用nih标准淋巴细胞毒性试验,48例血栓闭塞性脉管炎患者中有17例(35.4%)、15例大动脉炎患者中有5例(33.3%)和113例正常对照者中的11例,鉴定出一种可能的日本特异性抗原bjw 22.2(9.7%) 我试过用这个 从nltk导入单词标记化、位置标记、ne块 ne_块(pos_标记(word_标记化(text_发送))) 我得到了标记,但没有得到任何GPE标记

我有关于人口和国家信息的文本。我想得到人口和国家的净入学率

我的发言如下:

text_sent=日本动脉闭塞性疾病中的抗原。使用nih标准淋巴细胞毒性试验,48例血栓闭塞性脉管炎患者中有17例(35.4%)、15例大动脉炎患者中有5例(33.3%)和113例正常对照者中的11例,鉴定出一种可能的日本特异性抗原bjw 22.2(9.7%)

我试过用这个

从nltk导入单词标记化、位置标记、ne块 ne_块(pos_标记(word_标记化(text_发送)))

我得到了标记,但没有得到任何GPE标记的单词

(S) 抗原/NNS 英寸/英寸 动脉瘤/JJ 闭塞性/JJ 疾病/NNS 英寸/英寸 日本。使用/VBG a/DT nih/JJ 标准/JJ 淋巴细胞毒性/NN 测试/NN ,/, a/DT 可能的/JJ 日语/日本 特定/JJ 抗原/NN ,/, bjw/JJ 22.2/CD was/VBD 已识别/VBN 英寸/英寸 17/CD 出/入 of/IN 48/CD 病人/护士 有/在 血栓性脉管炎/NN 斜视器 (/( 35.4/CD 每平方英寸 美分/千分 )/) ,/, 英寸/英寸 5/CD 出/入 of/IN 15/CD 病人/护士 有/在 高康/北岛 s/POS 动脉炎/神经网络 (/( 33.3/CD 每平方英寸 美分/千分 )/) 及/抄送 英寸/英寸 11/CD 出/入 of/IN 113/CD 正常/JJ 控制/NNS (/( 9.7/CD 每平方英寸 美分/千分 )/)
./)

您没有得到GPE标签,因为“japan.using”不是地理位置的名称,而应该是japan using

我已经用训练过的空间模型尝试过了

import spacy 
nlp = spacy.load("en_core_web_sm")

doc = nlp(u"antigens in arterial occlusive diseases in japan.using a nih standard lymphocytotoxicity test, a possible japanese specific antigen, bjw 22.2 was identified in 17 out of 48 patients with thromboangiitis obliterans (35.4 per cent), in 5 out of 15 patients with takayasu's arteritis (33.3 per cent) and in 11 out of 113 normal controls (9.7 per cent).")

for ent in doc.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)

#o/p
japanese 106 114 NORP
22.2 137 141 CARDINAL
17 160 162 CARDINAL
48 170 172 CARDINAL
35.4 per cent 215 228 MONEY
5 234 235 CARDINAL
15 243 245 CARDINAL
33.3 per cent 282 295 MONEY
11 304 306 CARDINAL
113 314 317 CARDINAL
9.7 per cent 335 347 MONEY
但当你修改“japan.using”和“japan.using”时,你会得到GPE标签

Japan 43 48 GPE
japanese 107 115 NORP
22.2 138 142 CARDINAL
17 161 163 CARDINAL
48 171 173 CARDINAL
35.4 per cent 216 229 MONEY
5 235 236 CARDINAL
15 244 246 CARDINAL
33.3 per cent 283 296 MONEY
11 305 307 CARDINAL
113 315 318 CARDINAL
9.7 per cent 336 348 MONEY