Machine learning 给定文本的最近维基百科页面

Machine learning 给定文本的最近维基百科页面,machine-learning,wikipedia,information-retrieval,closest,web-search,Machine Learning,Wikipedia,Information Retrieval,Closest,Web Search,比如说,一个人写了一个查询——“d黑暗骑士rses”。我想找到最近的维基百科页面,即- 有什么可能的方法可以做到这一点 我能想到的一个简单方法是,在google上搜索附加了wikipedia一词的给定查询。然后在结果中查找第一个维基百科页面。如果在前5页中没有维基百科页面,请返回抱歉 但是有没有其他方便的方法或API调用可以避免使用Google呢 编辑:最近-例如“d黑暗之夜”可能导致“黑暗之夜”或“黑暗骑士”。这两个答案都是正确的。尽管前者更接近于查询,但我想后者是一个更好的答案,因为用户查询

比如说,一个人写了一个查询——“d黑暗骑士rses”。我想找到最近的维基百科页面,即-

有什么可能的方法可以做到这一点

我能想到的一个简单方法是,在google上搜索附加了wikipedia一词的给定查询。然后在结果中查找第一个维基百科页面。如果在前5页中没有维基百科页面,请返回抱歉

但是有没有其他方便的方法或API调用可以避免使用Google呢


编辑:最近-例如“d黑暗之夜”可能导致“黑暗之夜”或“黑暗骑士”。这两个答案都是正确的。尽管前者更接近于查询,但我想后者是一个更好的答案,因为用户查询可能就是这样。

也许你可以使用官方的,这里是一个使用
黑夜
查询的呼叫示例:

$ curl "https://en.wikipedia.org/w/api.php?action=opensearch&search=dark%20night"
这将返回:

[
    "dark night", 
    [
        "Dark Night", 
        "Dark Night of the Soul", 
        "Dark Night of the Soul (album)", 
        "Dark Night of the Scarecrow", 
        "Dark Night (song)", 
        "Dark Night (film)", 
        "Dark night rises", 
        "Dark night (roller coaster)", 
        "Dark night sky paradox"
    ]
]

更新:另一种方法是下载并在本地进行一些搜索。

即使是这个示例也不会返回《黑暗骑士》。@w2lame:它确实会返回-但是同意,API不是很灵活。顺便说一句,请看我的更新。您需要更具体一些,是否希望用户在您的搜索框中输入查询>搜索Wikipedia或Google中的前5个匹配项>,如果匹配,则返回结果?您好,关于谷歌搜索,您可以通过编写
site:wikipedia.org
和您想要搜索的字符串来“强制”谷歌只在维基百科中搜索,但这样您可以得到一些误报。您可以始终使用Bing开发者或Yahoo Boss API使用Bing开发者API很好。我听说他们要搬到azure了。让我检查一下。@w2lame:根据距离最近吗?