Php 如何找到我是否有相同的域名,但使用不同的扩展名

Php 如何找到我是否有相同的域名,但使用不同的扩展名,php,Php,我有一个问题,我想这将是一个简单的解决办法,但我无法解决它 我有一个充满URL的数据库,如: 等等 现在,给定http://www.domain.co.uk/page.html 我需要确定这样的页面是否已经在数据库中,假设不同的扩展没有改变内容 最终的目标很简单,我正在建立一个网站,人们可以提交网页,这些网页需要是独特的,以避免重复的内容。用户正在提交google maps.com和google maps.co。在创建同一页面的副本时,我需要做的是确定提交的页面是否已使用不同的域

我有一个问题,我想这将是一个简单的解决办法,但我无法解决它

我有一个充满URL的数据库,如:

  • 等等
现在,给定
http://www.domain.co.uk/page.html

我需要确定这样的页面是否已经在数据库中,假设不同的扩展没有改变内容

最终的目标很简单,我正在建立一个网站,人们可以提交网页,这些网页需要是独特的,以避免重复的内容。用户正在提交google maps.com和google maps.co。在创建同一页面的副本时,我需要做的是确定提交的页面是否已使用不同的域扩展提交。如果发现,我还会检查标题和内容,以防域扩展确实更改了内容(如www.wyska.net和www.wyska.com)

换言之:

  • maps.google.com===maps.google.it==maps.google.co.in===maps.google.co.uk
只有在内容“相似”的情况下(我也必须弄清楚“相似”的含义)

到目前为止,我有(但不起作用):


如果有必要,我甚至可以将域分解为不同的部分,并存储这些部分,而不是完整的域


我正在考虑对域扩展进行搜索替换,但是我还没有找到要使用的域扩展的完整列表。类似于:如果它以这些字符串中的任何一个结尾,那么从域中删除该部分

子域/TLD不同意味着页面不同。它们可能是彼此的别名,但这并不能保证!类似地,您可能会在默认文档中遇到相同的内容,因此example.com/index.php vs.example.co.uk/Yes,我知道不同的子域意味着不同的内容,子域需要是唯一的,扩展让我担心,就像我说的一个例子是
maps.google.
www.amazon.
。内容将是这张支票的一大部分。
example.com
和example.co.uk`是一个完美的例子,在这里我还必须检查内容,以确保它们是不同的站点,而不是不同扩展的相同站点。
<?php
$url = 'http://www.domain.com/text.html';  //works with this domain
$parse = parse_url($url);
var_dump($parse);
var_dump(pathinfo($parse['host']));

$url = 'http://sub.sub.domain.co.in/text.html';  //does not work with this domain
$parse = parse_url($url);
var_dump($parse);
var_dump(pathinfo($parse['host']));
?>