Web 在URL中查找公司名称_Web_Web Scraping

Web 在URL中查找公司名称

web web-scraping

Web 在URL中查找公司名称,web,web-scraping,Web,Web Scraping,给定一家知名公司（例如）的URL，您如何自动可靠地找到公司名称（在本例中为“Mc Donalds”）谢谢编辑：有人投票结束了这个问题，所以也许我需要解释一下动机。我有一个大的公司URL列表，我想用谷歌地图查找每个公司的数据。用公司名称搜索谷歌地图比用URL搜索要好得多删除“http”和“com”在很多情况下都有效，特别是对于知名公司，但不是所有公司。我发现whois的记录没有多大帮助我希望有某种公共数据库将公司与URL进行匹配，但到目前为止还没有遇到。您需要创建自己的查找表：您必须尝试从

给定一家知名公司（例如）的URL，您如何自动可靠地找到公司名称（在本例中为“Mc Donalds”）

谢谢

编辑：有人投票结束了这个问题，所以也许我需要解释一下动机。我有一个大的公司URL列表，我想用谷歌地图查找每个公司的数据。用公司名称搜索谷歌地图比用URL搜索要好得多

删除“http”和“com”在很多情况下都有效，特别是对于知名公司，但不是所有公司。我发现whois的记录没有多大帮助

我希望有某种公共数据库将公司与URL进行匹配，但到目前为止还没有遇到。

您需要创建自己的查找表：您必须尝试从URL的html中解析这些信息，以获得最准确的数据，例如：获取html页面标题，或者查找版权信息？

他们很可能会在

元素中找到它。解析并将其与网站的域进行比较。如果有明显的重叠，那就是你的对手。如果没有，请在标题上尝试一些启发式方法（例如名称是

之前的所有内容或类似内容）

如果它是一家较大的公司，那么您也可以幸运地查看其域的NIC条目（又名Whois）。

您可以使用这些信息。应该有一些库让你以一种干净的方式做到这一点。您没有提到您将使用哪种类型的技术…

数据库可能会有所帮助，尽管总有一些边缘情况需要您付出更多的努力来处理。

如果您想要准确，我会说amazon mechanical turk。

尝试使用cURL和DOMDocument

<?php

    $ch = curl_init();
    $site = "http://mcdonalds.com/";
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
    curl_setopt($ch, CURLOPT_URL, $site);
    $result= curl_exec($ch);
    curl_close($ch);        

    $dom = new DOMDocument();
    @$dom->loadHTML($result);
    $title = $dom->getElementsByTagName("title");
    echo $title->item(0)->nodeValue;
    
?>

看看meta标记，例如，另一个选项是使用API。在这里，您可以输入URL并提取最可能的公司名称。

删除“http://”和“.com”？（SCNR）严肃地说：你能更具体一点你想要实现什么吗？事实上，它的名字是“麦当劳”（没有空格，只有一个撇号）。我只是在他们的网站上查了一下。没有什么是万无一失的和准确的，你必须检查这些。是的，我希望这样的表格已经存在，我可以重复使用。但是它们真的是一团糟。这些公司的公关部门甚至都不知道都柏林核心。将它们解析为您不知道的内容会给您带来非常糟糕的成功率。该示例似乎检查了title标记，您建议检查meta标记。两者都是好主意，但总的来说并不可靠。