从openRefine上的单词列表获取URL

从openRefine上的单词列表获取URL,openrefine,Openrefine,我在第1列中有一个组织列表(带空格的字符串,如United),并希望使用第1列的值作为搜索字符串,用相关URL(如www.un.org/)填充第二列。地理编码过程非常简单(),因此我想知道是否有一种方法可以使用google搜索或其他web服务执行此任务。这将是一种命中率很高的方法,但它比手工编辑要好得多。谢谢 没有具体的例子,很难回答如此广泛的问题。但当然,我们可以使用OpenRefine,通过大量API或web抓取来丰富数据。过程几乎总是一样的:重建URL,“通过获取URL添加列”,然后解析生

我在第1列中有一个组织列表(带空格的字符串,如United),并希望使用第1列的值作为搜索字符串,用相关URL(如www.un.org/)填充第二列。地理编码过程非常简单(),因此我想知道是否有一种方法可以使用google搜索或其他web服务执行此任务。这将是一种命中率很高的方法,但它比手工编辑要好得多。谢谢

没有具体的例子,很难回答如此广泛的问题。但当然,我们可以使用OpenRefine,通过大量API或web抓取来丰富数据。过程几乎总是一样的:重建URL,“通过获取URL添加列”,然后解析生成的HTML、XML或JSON文件列

下面是一个如何从名称列表中调用的示例

重建URL非常简单:

"https://en.wikipedia.org/w/api.php?action=opensearch&search="

+ value.escape('url')

+ "&limit=10&namespace=0&format=xml"
对于
value='United'
,它将提供什么:

然后可以解析XML内容以提取所需的项。例如,要获取Wikipedia页面的描述:

value.parseHtml().select('Description').htmlText()

谢谢。它与wikipedia的API完美结合,或者像我之前提到的那样,与谷歌地图完美结合。但是,我无法让它与谷歌搜索引擎一起工作。我尝试过(但失败):“+value.escape('url')+”&limit=10&namespace=0&format=xml”。我想另一种选择是CSE(自定义搜索引擎)和相应的API键和搜索引擎ID。但是,我不知道如何将它们添加到代码中。我尝试过(但失败了):我认为这是一个误解:我解释的方法适用于维基百科URL。对于其他服务,请使用其他URL。“Opensearch”或“xml”在google.com上的搜索中毫无意义。而且,无论如何,你将无法刮谷歌。谷歌是世界上最大的刮刀,不允许任何人用它做同样的事情。你需要使用一些谷歌API。