Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/237.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 从参考页面绕过谷歌广告_Java_Php_Html - Fatal编程技术网

Java 从参考页面绕过谷歌广告

Java 从参考页面绕过谷歌广告,java,php,html,Java,Php,Html,我想阻止直接访问下面的一个页面代码工作良好,即使我刷新页面,但当我在这个页面上使用广告,我得到了广告爬行问题。谷歌机器人或其他广告机器人抓取网页直接导致机器人404页 <?php session_start();// At the very top of your page. Literally THE TOP. // Set our session variable only if it is not currently set. if (!isset($_SESSION['refer

我想阻止直接访问下面的一个页面代码工作良好,即使我刷新页面,但当我在这个页面上使用广告,我得到了广告爬行问题。谷歌机器人或其他广告机器人抓取网页直接导致机器人404页

<?php
session_start();// At the very top of your page. Literally THE TOP.
// Set our session variable only if it is not currently set. 
if (!isset($_SESSION['referrer'])) {
$_SESSION['referrer'] = $_SERVER['HTTP_REFERER'];
header('location:404.php');
exit;} ?>

它还显示了谷歌机器人404页的爬行

你知道怎么处理吗


我们如何使用php、java或htaccess直接访问块来访问一个页面,但不包括google bot。

好的,所以限制bot访问的一种方法,或者基本上要求他们不要索引特定页面,就是使用robots.txt文件

必须在域的根目录下访问此文件,例如:
example.com/robots.txt
,并包含以下内容:

User-agent: *
Disallow: /admin/
Allow: /admin/admin.php

Sitemap: https://example.com/sitemap.xml
如您所见,这使您能够允许/禁止机器人访问网站的某些页面/目录(路径)

它还允许您基于用户代理(例如:bot)允许/禁止,例如:

User-agent: Bingbot
Disallow: /

User-agent: *
Disallow:
请记住,robots可能会忽略您的robots.txt文件,尤其是黑客运行的滥用robots,以查找安全漏洞,因此您可能希望首先限制页面上呈现的任何敏感信息


对于一些已知的机器人/爬虫程序的列表-它可能还有关于robots.txt的更详细的解释

你可以开始研究使用robots.txt文件来限制爬虫程序。你能告诉我这个想法吗?