Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/341.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Spacy-使用维基百科描述的实体链接_Python_Spacy_Named Entity Recognition - Fatal编程技术网

Python Spacy-使用维基百科描述的实体链接

Python Spacy-使用维基百科描述的实体链接,python,spacy,named-entity-recognition,Python,Spacy,Named Entity Recognition,我正在使用下面的示例: 有一个标志用于使用来自Wikipedia的描述而不是Wikidata。我将其设置为True(它应该从Wikipedia数据中获取描述)。但是看看Wikidata部分下面的代码 if not descr_from_wp: logger.info("STEP 4c: Writing Wikidata entity descriptions to {}".format(entity_descr_path)) io.write_id_to_descr(entity

我正在使用下面的示例:

有一个标志用于使用来自Wikipedia的描述而不是Wikidata。我将其设置为True(它应该从Wikipedia数据中获取描述)。但是看看Wikidata部分下面的代码

if not descr_from_wp:
    logger.info("STEP 4c: Writing Wikidata entity descriptions to {}".format(entity_descr_path))
    io.write_id_to_descr(entity_descr_path, id_to_descr)
这不应该运行,因为
if
语句是
False
。但在维基百科部分

if descr_from_wp:
    logger.info("STEP 5b: Parsing and writing Wikipedia descriptions to {}".format(entity_descr_path))
它只是记录了一些东西--实际上似乎并没有创建描述。输出文件的标题为:
WD_id | description


我怎样才能让它写下维基百科的描述?

我相信所有的动作都发生在你引用的动作之前:

wp.create_training_and_desc(wp_xml, entity_defs_path, entity_descr_path, 
training_entities_path, descr_from_wp, limit_train)
(这是[https://github.com/explosion/projects/blob/master/nel-wikipedia/wikidata_pretrain_kb.py#L142])

该函数是一个文件,位于:

话虽如此,在几天前经历了这个过程之后,我确实得到了这样的印象,即所有这些都在不断变化,在描述、实际代码和spacy版本之间可能有点不匹配。您可能已经注意到自述文件以指令“runwikipedia\u pretrain\u kb.py”开头。然而,这样的文件并不存在,只有wikidata_pretrain_kb.py

虽然这一过程确实有效(最终),但最终的训练以每例10秒的缓慢速度进行。对于培训集中的300000个示例,这意味着在默认的10个阶段进行大约一年的培训

有一些说明表明,我们并不打算运行所有可用的培训数据。但在这种情况下,在一组重复的数据上运行10个纪元,且回报率递减,这似乎很奇怪


(2020年11月更新的URL。这个例子并没有从v2->v3(还没有?)

我相信所有的动作都发生在你引用的动作之前:

wp.create_training_and_desc(wp_xml, entity_defs_path, entity_descr_path, 
training_entities_path, descr_from_wp, limit_train)
(这是[https://github.com/explosion/projects/blob/master/nel-wikipedia/wikidata_pretrain_kb.py#L142])

该函数是一个文件,位于:

话虽如此,在几天前经历了这个过程之后,我确实得到了这样的印象,即所有这些都在不断变化,在描述、实际代码和spacy版本之间可能有点不匹配。您可能已经注意到自述文件以指令“runwikipedia\u pretrain\u kb.py”开头。然而,这样的文件并不存在,只有wikidata_pretrain_kb.py

虽然这一过程确实有效(最终),但最终的训练以每例10秒的缓慢速度进行。对于培训集中的300000个示例,这意味着在默认的10个阶段进行大约一年的培训

有一些说明表明,我们并不打算运行所有可用的培训数据。但在这种情况下,在一组重复的数据上运行10个纪元,且回报率递减,这似乎很奇怪


(更新于2020年11月的URL。这个例子并没有从v2->v3(还?)转换过来)

你知道没有Wikidata有什么方法可以做到这一点吗?事实上,我可以获得培训数据(这正是我想要的),但所有的“实体”都是空的,即使我知道我使用的模型可以识别它们。目前为止还没有做到这一点。spacy也很新。第一个想法:你在正确的地方做爱吗?也就是说,不是在POS标签存储的地方?万一有人遇到这个问题-我想指出的是,这个代码被移动到了(spaCy v2)。谢谢,@SofieVL!我已经更新了网址。我不确定一个人在什么“哈马级别”可以编辑其他人的答案,但假设你有这个选择,我不会介意。你知道没有Wikidata有什么方法可以做到这一点吗?事实上,我可以获得训练数据(这正是我想要的),但所有的“实体”都是空的,尽管我知道我使用的模型能识别它们,但还没到那个程度。spacy也很新。第一个想法:你在正确的地方做爱吗?也就是说,不是在POS标签存储的地方?万一有人遇到这个问题-我想指出的是,这个代码被移动到了(spaCy v2)。谢谢,@SofieVL!我已经更新了网址。我不确定一个人在什么“哈马级别”上能够编辑别人的答案,但假设你有这个选择,我不会介意。