Python Spacy-使用维基百科描述的实体链接
我正在使用下面的示例: 有一个标志用于使用来自Wikipedia的描述而不是Wikidata。我将其设置为True(它应该从Wikipedia数据中获取描述)。但是看看Wikidata部分下面的代码Python Spacy-使用维基百科描述的实体链接,python,spacy,named-entity-recognition,Python,Spacy,Named Entity Recognition,我正在使用下面的示例: 有一个标志用于使用来自Wikipedia的描述而不是Wikidata。我将其设置为True(它应该从Wikipedia数据中获取描述)。但是看看Wikidata部分下面的代码 if not descr_from_wp: logger.info("STEP 4c: Writing Wikidata entity descriptions to {}".format(entity_descr_path)) io.write_id_to_descr(entity
if not descr_from_wp:
logger.info("STEP 4c: Writing Wikidata entity descriptions to {}".format(entity_descr_path))
io.write_id_to_descr(entity_descr_path, id_to_descr)
这不应该运行,因为if
语句是False
。但在维基百科部分
if descr_from_wp:
logger.info("STEP 5b: Parsing and writing Wikipedia descriptions to {}".format(entity_descr_path))
它只是记录了一些东西--实际上似乎并没有创建描述。输出文件的标题为:WD_id | description
我怎样才能让它写下维基百科的描述?我相信所有的动作都发生在你引用的动作之前:
wp.create_training_and_desc(wp_xml, entity_defs_path, entity_descr_path,
training_entities_path, descr_from_wp, limit_train)
(这是[https://github.com/explosion/projects/blob/master/nel-wikipedia/wikidata_pretrain_kb.py#L142])
该函数是一个文件,位于:
话虽如此,在几天前经历了这个过程之后,我确实得到了这样的印象,即所有这些都在不断变化,在描述、实际代码和spacy版本之间可能有点不匹配。您可能已经注意到自述文件以指令“runwikipedia\u pretrain\u kb.py”开头。然而,这样的文件并不存在,只有wikidata_pretrain_kb.py
虽然这一过程确实有效(最终),但最终的训练以每例10秒的缓慢速度进行。对于培训集中的300000个示例,这意味着在默认的10个阶段进行大约一年的培训
有一些说明表明,我们并不打算运行所有可用的培训数据。但在这种情况下,在一组重复的数据上运行10个纪元,且回报率递减,这似乎很奇怪
(2020年11月更新的URL。这个例子并没有从v2->v3(还没有?)我相信所有的动作都发生在你引用的动作之前:
wp.create_training_and_desc(wp_xml, entity_defs_path, entity_descr_path,
training_entities_path, descr_from_wp, limit_train)
(这是[https://github.com/explosion/projects/blob/master/nel-wikipedia/wikidata_pretrain_kb.py#L142])
该函数是一个文件,位于:
话虽如此,在几天前经历了这个过程之后,我确实得到了这样的印象,即所有这些都在不断变化,在描述、实际代码和spacy版本之间可能有点不匹配。您可能已经注意到自述文件以指令“runwikipedia\u pretrain\u kb.py”开头。然而,这样的文件并不存在,只有wikidata_pretrain_kb.py
虽然这一过程确实有效(最终),但最终的训练以每例10秒的缓慢速度进行。对于培训集中的300000个示例,这意味着在默认的10个阶段进行大约一年的培训
有一些说明表明,我们并不打算运行所有可用的培训数据。但在这种情况下,在一组重复的数据上运行10个纪元,且回报率递减,这似乎很奇怪
(更新于2020年11月的URL。这个例子并没有从v2->v3(还?)转换过来)你知道没有Wikidata有什么方法可以做到这一点吗?事实上,我可以获得培训数据(这正是我想要的),但所有的“实体”都是空的,即使我知道我使用的模型可以识别它们。目前为止还没有做到这一点。spacy也很新。第一个想法:你在正确的地方做爱吗?也就是说,不是在POS标签存储的地方?万一有人遇到这个问题-我想指出的是,这个代码被移动到了(spaCy v2)。谢谢,@SofieVL!我已经更新了网址。我不确定一个人在什么“哈马级别”可以编辑其他人的答案,但假设你有这个选择,我不会介意。你知道没有Wikidata有什么方法可以做到这一点吗?事实上,我可以获得训练数据(这正是我想要的),但所有的“实体”都是空的,尽管我知道我使用的模型能识别它们,但还没到那个程度。spacy也很新。第一个想法:你在正确的地方做爱吗?也就是说,不是在POS标签存储的地方?万一有人遇到这个问题-我想指出的是,这个代码被移动到了(spaCy v2)。谢谢,@SofieVL!我已经更新了网址。我不确定一个人在什么“哈马级别”上能够编辑别人的答案,但假设你有这个选择,我不会介意。