Php 如果没有元描述，如何使用p标记的20个字符_Php

Php 如果没有元描述，如何使用p标记的20个字符

php

Php 如果没有元描述，如何使用p标记的20个字符,php,Php,对，我已经建立了一个网络爬虫。它扫描链接、标题和元描述。它扫描链接并将它们保存在$link中。它扫描链接的标题并将其保存在newArray的[title]中。现在在这个数组中，我想让它知道，如果没有meta标记，它可以扫描第一个p标记并使用它。唯一的问题是，它似乎根本没有保存任何信息 function getMetas($link) { $str1 = file_get_contents($link); if (strlen($str1)>0) { preg_match

对，我已经建立了一个网络爬虫。它扫描链接、标题和元描述。它扫描链接并将它们保存在$link中。它扫描链接的标题并将其保存在newArray的[title]中。现在在这个数组中，我想让它知道，如果没有meta标记，它可以扫描第一个p标记并使用它。唯一的问题是，它似乎根本没有保存任何信息

function getMetas($link) {
$str1 = file_get_contents($link);    

    if (strlen($str1)>0) {
 preg_match_all( '/<meta.*?name=("|\')description("|\').*?content=("|\')(.*?)("|\')/i', $str1, $description);
   if (count($description) > 1) {
    return $description[4];   
   }


   }
 return '';
   if ($description == '') {
$html = file_get_contents($link);    
preg_match('%(<p[^>]*>.*?</p>)%i', $html, $re);
$res = get_custom_excerpt($re[1]);
echo "\n";
echo $res;
echo "\n";

}

    function get_custom_excerpt($return, $option = 30, $sentance = false) {
    $marks = Array(".","!","?");

   $return = strip_tags($return);

  if($sentance == true) {
$start = implode(" ", array_slice(preg_split("/\s+/", $return), 0, $option ));
$start .= ' ';
$end = implode(" ", array_slice(preg_split("/\s+/", $return), $option));

$cut = Array();
foreach($marks AS $m => $mark){
  $mark = strpos($end, $mark);
  if($mark != false) $cut[$m] = $mark;
}

if($cut[0] != "")
  $chop = min($cut);
    else
      $chop = $option;
$rest = substr($end, 0, $chop);

$key = array_search($chop, $cut);

$return = $start.$rest;

   }else{
$return = implode(" ", array_slice(preg_split("/\s+/", $return), 0, $option));
   }
  $return .= $marks[$key];

  return $return; 
   }  

   }


 $output = Array();

 foreach ($links as $thisLink) {
 $output[] = array("link" => $thisLink, "title" => Titles($thisLink), "description" => getMetas($thisLink), getMetas($res));
 } 
  print_r($output);

函数getMetas（$link）{ $str1=文件获取内容（$link）；如果（strlen（$str1）>0）{

preg_match_all（'/您的正则表达式可能不起作用。属性可能不符合您所需的顺序。它可以是

或

为什么不使用XML解析器呢？大多数HTML都足够有效，可以用于解析

请看一看

我建议使用XPath来选择元素和内容，而不是正则表达式。这将是一个优雅的解决方案，允许开发人员之间的编码风格不一致。例如，元标记中属性的顺序，XML解析器不会真的在意。很好：）