Nlp 使用动态技术的词间语义相似性（使用维基百科）_Nlp_Wikipedia_Similarity

Nlp 使用动态技术的词间语义相似性（使用维基百科）

nlp

Nlp 使用动态技术的词间语义相似性（使用维基百科）,nlp,wikipedia,similarity,Nlp,Wikipedia,Similarity,我用python编写了一个程序，用word net查找单词之间的语义相似性。但我觉得它是静态的。我想给它一个动态的方法。我想访问维基百科中每个单词的定义。我怎样才能知道这样一个词的定义？当我在谷歌上搜索时，我发现通过解析维基百科转储文件，我们可以得到定义。但我不知道如何解析它。是否有人可以实现一个解析器来从转储文件中获取单词的定义。这是唯一的办法吗？方法是正确的。我认为您实际上是在寻找同义词表，而不是维基百科。其中一些是机器可读的语料库。然而，我必须承认，除了在一些特殊情况下，文本定义似乎不是确

我用python编写了一个程序，用word net查找单词之间的语义相似性。但我觉得它是静态的。我想给它一个动态的方法。我想访问维基百科中每个单词的定义。我怎样才能知道这样一个词的定义？当我在谷歌上搜索时，我发现通过解析维基百科转储文件，我们可以得到定义。但我不知道如何解析它。是否有人可以实现一个解析器来从转储文件中获取单词的定义。这是唯一的办法吗？方法是正确的。

我认为您实际上是在寻找同义词表，而不是维基百科。其中一些是机器可读的语料库。然而，我必须承认，除了在一些特殊情况下，文本定义似乎不是确定单词相似性的良好信息来源

这些都是关于词语相似性度量的大量工作，因此，与其重新发明轮子，不如研究最先进的技术和/或工具。提到了其中一些。你不需要重新发明轮子。怀卡托大学的研究人员建立了一个非常好的维基百科数据挖掘服务。p> 这个包将Wikipedia的常规转储转换为MySql数据库格式，并提供对Wikipedia部分内容（如文章、消歧页面和超链接）的面向对象访问。Wikipedia Miner还实现了一种计算文章之间语义相关性的算法，该算法用于消除文档与Wikipedia文章之间的歧义，并计算语义特征

除此之外，他们还公开了各种API。例如，如果您想获得

逻辑回归的定义，只需使用他们的exploreArticle
API：

响应xml如下所示：
<message service="/services/exploreArticle" id="226631" title="Logistic regression">
<request>
  <param name="title">logistic regression</param>
  <param name="definition">true</param>
</request>
<definition><![CDATA[In <a href="http://www.en.wikipedia.org/wiki/Statistics">statistics</a>, <b>logistic regression</b> (sometimes called the <b>logistic model</b> or <b><a href="http://www.en.wikipedia.org/wiki/Logit">logit</a> model</b>) is used for prediction of the <a href="http://www.en.wikipedia.org/wiki/Probability">probability</a> of occurrence of an event by fitting data to a logit function <a href="http://www.en.wikipedia.org/wiki/Logistic function">logistic curve</a>.]]>
</definition>
</message>


逻辑回归
真的
logistic回归（有时称为logistic模型）通过将数据拟合到logit函数来预测事件的发生。]]>

要比较单词之间的语义相似性，可以尝试使用它们的compare
API
例如，将kiwi
与takahe
进行比较，您可以使用以下API调用：

是关于他们用于相关性度量的算法的更多细节
您还可以托管自己的wikipediaMiner服务（详细信息）。
了解有关如何使用其服务的更多信息，请访问。他们的相关出版物是。
Wikipedia通常有关于主题的完整文章，不仅仅是定义。但我有一篇ieee论文解释了相同的概念。但他们并没有说如何理解这些定义。维基百科转储文件包含对其文章的小描述@斯维克