Web 在URL中查找公司名称
给定一家知名公司(例如)的URL,您如何自动可靠地找到公司名称(在本例中为“Mc Donalds”) 谢谢 编辑:有人投票结束了这个问题,所以也许我需要解释一下动机。我有一个大的公司URL列表,我想用谷歌地图查找每个公司的数据。用公司名称搜索谷歌地图比用URL搜索要好得多 删除“http”和“com”在很多情况下都有效,特别是对于知名公司,但不是所有公司。我发现whois的记录没有多大帮助Web 在URL中查找公司名称,web,web-scraping,Web,Web Scraping,给定一家知名公司(例如)的URL,您如何自动可靠地找到公司名称(在本例中为“Mc Donalds”) 谢谢 编辑:有人投票结束了这个问题,所以也许我需要解释一下动机。我有一个大的公司URL列表,我想用谷歌地图查找每个公司的数据。用公司名称搜索谷歌地图比用URL搜索要好得多 删除“http”和“com”在很多情况下都有效,特别是对于知名公司,但不是所有公司。我发现whois的记录没有多大帮助 我希望有某种公共数据库将公司与URL进行匹配,但到目前为止还没有遇到。您需要创建自己的查找表:您必须尝试从
我希望有某种公共数据库将公司与URL进行匹配,但到目前为止还没有遇到。您需要创建自己的查找表:您必须尝试从URL的html中解析这些信息,以获得最准确的数据,例如:获取html页面标题,或者查找版权信息?他们很可能会在
元素中找到它。解析并将其与网站的域进行比较。如果有明显的重叠,那就是你的对手。如果没有,请在标题上尝试一些启发式方法(例如名称是>
之前的所有内容或类似内容)
如果它是一家较大的公司,那么您也可以幸运地查看其域的NIC条目(又名Whois)。您可以使用这些信息。应该有一些库让你以一种干净的方式做到这一点。您没有提到您将使用哪种类型的技术…数据库可能会有所帮助,尽管总有一些边缘情况需要您付出更多的努力来处理。如果您想要准确,我会说amazon mechanical turk。尝试使用cURL和DOMDocument
<?php
$ch = curl_init();
$site = "http://mcdonalds.com/";
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_URL, $site);
$result= curl_exec($ch);
curl_close($ch);
$dom = new DOMDocument();
@$dom->loadHTML($result);
$title = $dom->getElementsByTagName("title");
echo $title->item(0)->nodeValue;
?>
看看meta标记,例如,另一个选项是使用API。在这里,您可以输入URL并提取最可能的公司名称。删除“http://”和“.com”?(SCNR)严肃地说:你能更具体一点你想要实现什么吗?事实上,它的名字是“麦当劳”(没有空格,只有一个撇号)。我只是在他们的网站上查了一下。没有什么是万无一失的和准确的,你必须检查这些。是的,我希望这样的表格已经存在,我可以重复使用。但是它们真的是一团糟。这些公司的公关部门甚至都不知道都柏林核心。将它们解析为您不知道的内容会给您带来非常糟糕的成功率。该示例似乎检查了title标记,您建议检查meta标记。两者都是好主意,但总的来说并不可靠。