Php 网络爬虫似乎改变了我的HTTP_主机值,这是典型的吗?

Php 网络爬虫似乎改变了我的HTTP_主机值,这是典型的吗?,php,web-crawler,zend-server,spoofing,Php,Web Crawler,Zend Server,Spoofing,我在搜索时找不到任何具体的东西,但在查看我的zend服务器上的错误日志时,似乎web爬虫正在修改各种服务器变量,使其看起来不准确。它似乎在我的域下创建了一个子域,但这个子域实际上并不存在 如果实际域名是www.mydomain.com,我会得到以下值: 'SERVER_NAME' => 'www.arbitraryValue.mydomain.com' 'HTTP_HOST' => 'www.arbitraryValue.mydomain.com' 'SCRIPT_URI' =>

我在搜索时找不到任何具体的东西,但在查看我的zend服务器上的错误日志时,似乎web爬虫正在修改各种服务器变量,使其看起来不准确。它似乎在我的域下创建了一个子域,但这个子域实际上并不存在

如果实际域名是www.mydomain.com,我会得到以下值:

'SERVER_NAME' => 'www.arbitraryValue.mydomain.com'
'HTTP_HOST' => 'www.arbitraryValue.mydomain.com'
'SCRIPT_URI' => 'http://www.arbitraryValue.mydomain.com/segment1/segment2/segment3/page.php'
对于所有这些实例,我注意到
HTTP\u USER\u AGENT
将它们报告为网络爬虫。我从包括谷歌在内的各种网络爬虫那里得到了这些事件,而不仅仅是一个

这是典型的网络爬虫行为吗?或者我应该担心潜在的服务器变量/用户代理欺骗吗

就欺骗而言,我发现这个问题很有用,但如果这是网络爬虫的典型行为,那么我就不必去兔子洞了


那么,如果你访问
www.arbirryvalue.mydomain.com
,它会加载到web浏览器中吗?我怀疑是通配符子域。不,不是,“名称无法解析”。上次我检查没有通配符子域,我们不需要使用它们,所以不应该添加通配符。可能在某个地方有指向该子域的链接。网络爬虫将跟随该链接查看该页面是否存在。在这种情况下,不存在欺骗。欺骗是指访问者通过伪造用户代理甚至IP地址来伪装成其他人。在这种情况下,只是有人访问了一个无效的url。正确的做法是将它们301到正确的页面(不带“ArricryValue”),或者返回404 not found。我正在仔细检查通配符子域的使用情况。我会在确认后重新发布。