Web 在URL中查找公司名称

Web 在URL中查找公司名称,web,web-scraping,Web,Web Scraping,给定一家知名公司(例如)的URL,您如何自动可靠地找到公司名称(在本例中为“Mc Donalds”) 谢谢 编辑:有人投票结束了这个问题,所以也许我需要解释一下动机。我有一个大的公司URL列表,我想用谷歌地图查找每个公司的数据。用公司名称搜索谷歌地图比用URL搜索要好得多 删除“http”和“com”在很多情况下都有效,特别是对于知名公司,但不是所有公司。我发现whois的记录没有多大帮助 我希望有某种公共数据库将公司与URL进行匹配,但到目前为止还没有遇到。您需要创建自己的查找表:您必须尝试从

给定一家知名公司(例如)的URL,您如何自动可靠地找到公司名称(在本例中为“Mc Donalds”)

谢谢

编辑:有人投票结束了这个问题,所以也许我需要解释一下动机。我有一个大的公司URL列表,我想用谷歌地图查找每个公司的数据。用公司名称搜索谷歌地图比用URL搜索要好得多

删除“http”和“com”在很多情况下都有效,特别是对于知名公司,但不是所有公司。我发现whois的记录没有多大帮助


我希望有某种公共数据库将公司与URL进行匹配,但到目前为止还没有遇到。

您需要创建自己的查找表:您必须尝试从URL的html中解析这些信息,以获得最准确的数据,例如:获取html页面标题,或者查找版权信息?

他们很可能会在
元素中找到它。解析并将其与网站的域进行比较。如果有明显的重叠,那就是你的对手。如果没有,请在标题上尝试一些启发式方法(例如名称是
>
之前的所有内容或类似内容)


如果它是一家较大的公司,那么您也可以幸运地查看其域的NIC条目(又名Whois)。

您可以使用这些信息。应该有一些库让你以一种干净的方式做到这一点。您没有提到您将使用哪种类型的技术…

数据库可能会有所帮助,尽管总有一些边缘情况需要您付出更多的努力来处理。

如果您想要准确,我会说amazon mechanical turk。

尝试使用cURL和DOMDocument

<?php

    $ch = curl_init();
    $site = "http://mcdonalds.com/";
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
    curl_setopt($ch, CURLOPT_URL, $site);
    $result= curl_exec($ch);
    curl_close($ch);        

    $dom = new DOMDocument();
    @$dom->loadHTML($result);
    $title = $dom->getElementsByTagName("title");
    echo $title->item(0)->nodeValue;
    
?>


看看meta标记,例如,另一个选项是使用API。在这里,您可以输入URL并提取最可能的公司名称。

删除“http://”和“.com”?(SCNR)严肃地说:你能更具体一点你想要实现什么吗?事实上,它的名字是“麦当劳”(没有空格,只有一个撇号)。我只是在他们的网站上查了一下。没有什么是万无一失的和准确的,你必须检查这些。是的,我希望这样的表格已经存在,我可以重复使用。但是它们真的是一团糟。这些公司的公关部门甚至都不知道都柏林核心。将它们解析为您不知道的内容会给您带来非常糟糕的成功率。该示例似乎检查了title标记,您建议检查meta标记。两者都是好主意,但总的来说并不可靠。