Java 人名消歧

Java 人名消歧,java,testing,nlp,wikipedia,Java,Testing,Nlp,Wikipedia,我目前正在做一个关于人名消歧的项目。该项目背后的理念是,当有多个同名的人时,它将能够识别正确的人。我用过维基百科。我想用一些标准数据来评估我的项目。我正在寻找一些测试数据。我不熟悉维基百科中流行的名字。知道我在哪里能找到这些数据吗?我不是在寻找大量的数据。我只是想找100-500个例子 多谢各位 为问题添加更多信息 我要找的是名字相同但实际上不同的人。例如,迈克尔·乔登是一位著名的篮球运动员,还有一位以这个名字命名的统计学家。我正在寻找这样的例子 http://en.wikipedia.org

我目前正在做一个关于人名消歧的项目。该项目背后的理念是,当有多个同名的人时,它将能够识别正确的人。我用过维基百科。我想用一些标准数据来评估我的项目。我正在寻找一些测试数据。我不熟悉维基百科中流行的名字。知道我在哪里能找到这些数据吗?我不是在寻找大量的数据。我只是想找100-500个例子

多谢各位

为问题添加更多信息

我要找的是名字相同但实际上不同的人。例如,迈克尔·乔登是一位著名的篮球运动员,还有一位以这个名字命名的统计学家。我正在寻找这样的例子

http://en.wikipedia.org/wiki/Michael_I._Jordan


希望你现在明白这个问题了。

想知道为什么你不能在SO上使用这些名称:

它已经按rep排名,所以你知道“流行名称”。

是维基百科上一个巨大的消歧页面列表。从中链接的每个页面都包含事物名称不明确的页面链接。这就是您要寻找的吗?

用于测试的数据集:


祝你好运

我想你没有明白我的问题。我现在更新了问题。谢谢你的链接。实际上,我正在为我的项目挖掘这些数据。但是,我想用一些流行的名字来评估我的项目。谢谢你的数据集。但所有这些数据集,包括一个需要训练的数据,然后是评估它们的文章。我只需要有两种感觉的人的名字。因为,我的代码从wikipedia中提取功能,它不能应用于任意文本。。现在我明白了。您开发的算法考虑了wikipage是否有信息框。最好的评估基础是在给定时间段内合并wikipages的信息。肯定有这样一个数据集。因为有很多关于归档web的研究项目,例如,wikipedia是web上最重要的知识门户之一。也许您可以从wikipages的历史记录中提取这些信息。关于合并的wikipages可能有助于查找如何自动检索wikipages历史记录的信息:在这里您将找到如何获取页面历史记录的信息-。