从openRefine上的单词列表获取URL_Openrefine

从openRefine上的单词列表获取URL

从openRefine上的单词列表获取URL,openrefine,Openrefine,我在第1列中有一个组织列表（带空格的字符串，如United），并希望使用第1列的值作为搜索字符串，用相关URL（如www.un.org/）填充第二列。地理编码过程非常简单（），因此我想知道是否有一种方法可以使用google搜索或其他web服务执行此任务。这将是一种命中率很高的方法，但它比手工编辑要好得多。谢谢没有具体的例子，很难回答如此广泛的问题。但当然，我们可以使用OpenRefine，通过大量API或web抓取来丰富数据。过程几乎总是一样的：重建URL，“通过获取URL添加列”，然后解析生

我在第1列中有一个组织列表（带空格的字符串，如United），并希望使用第1列的值作为搜索字符串，用相关URL（如www.un.org/）填充第二列。地理编码过程非常简单（），因此我想知道是否有一种方法可以使用google搜索或其他web服务执行此任务。这将是一种命中率很高的方法，但它比手工编辑要好得多。谢谢

没有具体的例子，很难回答如此广泛的问题。但当然，我们可以使用OpenRefine，通过大量API或web抓取来丰富数据。过程几乎总是一样的：重建URL，“通过获取URL添加列”，然后解析生成的HTML、XML或JSON文件列

下面是一个如何从名称列表中调用的示例

重建URL非常简单：

"https://en.wikipedia.org/w/api.php?action=opensearch&search="

+ value.escape('url')

+ "&limit=10&namespace=0&format=xml"

对于

value='United'

，它将提供什么：

然后可以解析XML内容以提取所需的项。例如，要获取Wikipedia页面的描述：

value.parseHtml().select('Description').htmlText()

谢谢。它与wikipedia的API完美结合，或者像我之前提到的那样，与谷歌地图完美结合。但是，我无法让它与谷歌搜索引擎一起工作。我尝试过（但失败）：“+value.escape（'url'）+”&limit=10&namespace=0&format=xml”。我想另一种选择是CSE（自定义搜索引擎）和相应的API键和搜索引擎ID。但是，我不知道如何将它们添加到代码中。我尝试过（但失败了）：我认为这是一个误解：我解释的方法适用于维基百科URL。对于其他服务，请使用其他URL。“Opensearch”或“xml”在google.com上的搜索中毫无意义。而且，无论如何，你将无法刮谷歌。谷歌是世界上最大的刮刀，不允许任何人用它做同样的事情。你需要使用一些谷歌API。