Php 以下重定向
我试着变得有点斯内克,作为学习过程的一部分,试着提高我的页面抓取技能 有一件事我遇到了,我还没有能够解决的是,某些网站将使用一个内部链接,然后重定向到一个外部链接 我想做的是修改一些curl代码来跟随重定向,直到它们停止,然后获得最终的rest place URL 有人给我推荐一些代码吗 我现在有这个,但是它现在没有正确地遵循重定向Php 以下重定向,php,curl,scrape,Php,Curl,Scrape,我试着变得有点斯内克,作为学习过程的一部分,试着提高我的页面抓取技能 有一件事我遇到了,我还没有能够解决的是,某些网站将使用一个内部链接,然后重定向到一个外部链接 我想做的是修改一些curl代码来跟随重定向,直到它们停止,然后获得最终的rest place URL 有人给我推荐一些代码吗 我现在有这个,但是它现在没有正确地遵循重定向 $opts = array(CURLOPT_URL => $url, CURLOPT_RETURN
$opts = array(CURLOPT_URL => $url,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_HEADER => true,
CURLOPT_FOLLOWLOCATION => true);
$curl = curl_init();
curl_setopt_array($curl, $opts);
$str = curl_exec($curl);
curl_close($curl);
如果您不能使用
CURLOPT\u FOLLOWLOCATION
,我建议您使用如下递归方法:
function getUrl($url, $count) {
// max number of redirects
if ($count > 5) {
return false;
}
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$data = curl_exec($ch);
$httpCode = curl_getinfo($ch, CURLINFO_HTTP_CODE);
curl_close($ch);
if (!$data) {
return false;
}
$dataArray = explode("\r\n\r\n", $data, 2);
if (count($dataArray) != 2) {
return false;
}
list($header, $body) = $dataArray;
if ($httpCode == 301 || $httpCode == 302) {
$matches = array();
preg_match('/Location:(.*?)\n/', $header, $matches);
if (isset($matches[1])) {
return getUrl(trim($matches[1]), $count + 1);
}
} else {
return $body;
}
}
http://php.net/manual/en/ref.curl.php
function get_final_url( $url, $timeout = 5 )
{
$url = str_replace( "&", "&", urldecode(trim($url)) );
$cookie = tempnam ("/tmp", "CURLCOOKIE");
$ch = curl_init();
curl_setopt( $ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; rv:1.7.3) Gecko/20041001 Firefox/0.10.1" );
curl_setopt( $ch, CURLOPT_URL, $url );
curl_setopt( $ch, CURLOPT_COOKIEJAR, $cookie );
curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, true );
curl_setopt( $ch, CURLOPT_ENCODING, "" );
curl_setopt( $ch, CURLOPT_RETURNTRANSFER, true );
curl_setopt( $ch, CURLOPT_AUTOREFERER, true );
curl_setopt( $ch, CURLOPT_CONNECTTIMEOUT, $timeout );
curl_setopt( $ch, CURLOPT_TIMEOUT, $timeout );
curl_setopt( $ch, CURLOPT_MAXREDIRS, 10 );
$content = curl_exec( $ch );
$response = curl_getinfo( $ch );
curl_close ( $ch );
if ($response['http_code'] == 301 || $response['http_code'] == 302)
{
ini_set("user_agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; rv:1.7.3) Gecko/20041001 Firefox/0.10.1");
$headers = get_headers($response['url']);
$location = "";
foreach( $headers as $value )
{
if ( substr( strtolower($value), 0, 9 ) == "location:" )
return get_final_url( trim( substr( $value, 9, strlen($value) ) ) );
}
}
if ( preg_match("/window\.location\.replace\('(.*)'\)/i", $content, $value) ||
preg_match("/window\.location\=\"(.*)\"/i", $content, $value)
)
{
return get_final_url ( $value[1] );
}
else
{
return $response['url'];
}
}
你所说的重定向到外部链接的内部链接是什么意思?如果
followlocation
是我刚刚使用的,并且它工作得很好,那么Curl应该用30*头重定向!非常感谢与大家分享me@manish一个更简单的curl\u getinfo($curl,CURLINFO\u REDIRECT\u URL)
由于某种原因不可能实现?