Python Spacy-使用维基百科描述的实体链接_Python_Spacy_Named Entity Recognition

Python Spacy-使用维基百科描述的实体链接

python

Python Spacy-使用维基百科描述的实体链接,python,spacy,named-entity-recognition,Python,Spacy,Named Entity Recognition,我正在使用下面的示例：有一个标志用于使用来自Wikipedia的描述而不是Wikidata。我将其设置为True（它应该从Wikipedia数据中获取描述）。但是看看Wikidata部分下面的代码 if not descr_from_wp: logger.info("STEP 4c: Writing Wikidata entity descriptions to {}".format(entity_descr_path)) io.write_id_to_descr(entity

我正在使用下面的示例：

有一个标志用于使用来自Wikipedia的描述而不是Wikidata。我将其设置为True（它应该从Wikipedia数据中获取描述）。但是看看Wikidata部分下面的代码

if not descr_from_wp:
    logger.info("STEP 4c: Writing Wikidata entity descriptions to {}".format(entity_descr_path))
    io.write_id_to_descr(entity_descr_path, id_to_descr)

这不应该运行，因为

if

语句是

False

。但在维基百科部分

if descr_from_wp:
    logger.info("STEP 5b: Parsing and writing Wikipedia descriptions to {}".format(entity_descr_path))

它只是记录了一些东西--实际上似乎并没有创建描述。输出文件的标题为：

WD_id | description

我怎样才能让它写下维基百科的描述？

我相信所有的动作都发生在你引用的动作之前：

wp.create_training_and_desc(wp_xml, entity_defs_path, entity_descr_path, 
training_entities_path, descr_from_wp, limit_train)

（这是[https://github.com/explosion/projects/blob/master/nel-wikipedia/wikidata_pretrain_kb.py#L142])

该函数是一个文件，位于：

话虽如此，在几天前经历了这个过程之后，我确实得到了这样的印象，即所有这些都在不断变化，在描述、实际代码和spacy版本之间可能有点不匹配。您可能已经注意到自述文件以指令“runwikipedia\u pretrain\u kb.py”开头。然而，这样的文件并不存在，只有wikidata_pretrain_kb.py

虽然这一过程确实有效（最终），但最终的训练以每例10秒的缓慢速度进行。对于培训集中的300000个示例，这意味着在默认的10个阶段进行大约一年的培训

有一些说明表明，我们并不打算运行所有可用的培训数据。但在这种情况下，在一组重复的数据上运行10个纪元，且回报率递减，这似乎很奇怪

（2020年11月更新的URL。这个例子并没有从v2->v3（还没有？）

我相信所有的动作都发生在你引用的动作之前：

wp.create_training_and_desc(wp_xml, entity_defs_path, entity_descr_path, 
training_entities_path, descr_from_wp, limit_train)

（这是[https://github.com/explosion/projects/blob/master/nel-wikipedia/wikidata_pretrain_kb.py#L142])

该函数是一个文件，位于：

有一些说明表明，我们并不打算运行所有可用的培训数据。但在这种情况下，在一组重复的数据上运行10个纪元，且回报率递减，这似乎很奇怪

（更新于2020年11月的URL。这个例子并没有从v2->v3（还？）转换过来）

你知道没有Wikidata有什么方法可以做到这一点吗？事实上，我可以获得培训数据（这正是我想要的），但所有的“实体”都是空的，即使我知道我使用的模型可以识别它们。目前为止还没有做到这一点。spacy也很新。第一个想法：你在正确的地方做爱吗？也就是说，不是在POS标签存储的地方？万一有人遇到这个问题-我想指出的是，这个代码被移动到了（spaCy v2）。谢谢，@SofieVL！我已经更新了网址。我不确定一个人在什么“哈马级别”可以编辑其他人的答案，但假设你有这个选择，我不会介意。你知道没有Wikidata有什么方法可以做到这一点吗？事实上，我可以获得训练数据（这正是我想要的），但所有的“实体”都是空的，尽管我知道我使用的模型能识别它们，但还没到那个程度。spacy也很新。第一个想法：你在正确的地方做爱吗？也就是说，不是在POS标签存储的地方？万一有人遇到这个问题-我想指出的是，这个代码被移动到了（spaCy v2）。谢谢，@SofieVL！我已经更新了网址。我不确定一个人在什么“哈马级别”上能够编辑别人的答案，但假设你有这个选择，我不会介意。