Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/277.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/cplusplus/138.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php 从网页的html转储中提取第一个完整格式的句子_Php - Fatal编程技术网

Php 从网页的html转储中提取第一个完整格式的句子

Php 从网页的html转储中提取第一个完整格式的句子,php,Php,我正在使用PHP开发一个应用程序,它使用CURL从另一个网页中提取所有句子。 虽然我能够提取所有数据,但我发现提取完整格式的句子有困难。我已经提到了所有相关的问题,并以我想要的方式帮助我。请指教 html内容,我需要从中提取完整格式的句子 <p><font size="1" color="#C0C0C0">© Copyright <br></font><a href="http://www.dddddd.com" target="_blank

我正在使用PHP开发一个应用程序,它使用CURL从另一个网页中提取所有句子。 虽然我能够提取所有数据,但我发现提取完整格式的句子有困难。我已经提到了所有相关的问题,并以我想要的方式帮助我。请指教

html内容,我需要从中提取完整格式的句子

<p><font size="1" color="#C0C0C0">© Copyright <br></font><a href="http://www.dddddd.com" target="_blank"><font size="1" color="#C0C0C0">apple orange Ltd</font></a><font size="1"color="#C0C0C0"><a href="http://sm2.dddd.com/stats.asp?site=sm2ph0t0" target="_top"><img src="http://sm2.dddd.com/meter.asp?site=sm2ph0t0" alt="Site Meter" border=0></a></font></p></td><td valign="top" width="24"></td><!--msnavigation--><td valign="top"><p align="center"><a href="http://www.orangeapple.com" target="_blank"><img border="0" src="asddaf.jpg" alt="Sponsored by Ace Murder Mystery" width="85" height="121"></a><font face="Times New Roman"><b><b><u>Posters</u></b><br><font size="3" color="#008080">To find a large selection of jay joes prints and posters including framing options, please type the word..<font color="#996633"> asdasd </font></a><font color="#996633">&nbsp;</font> in the box below:<br><b>
©版权所有

海报
要查找大量jay joes印刷品和海报(包括框架选项),请键入单词。。asdasd在下面的框中:

基本上,如果你注意到有很多不相关的句子可能会出现。我想从上面的句子中提取一个字符串中至少有“6”个单词的句子 我应该得到“找到大量杰·乔的印刷品和海报”作为输出

谢谢,
Jay

我通过以下方法解决了这个问题

$paras = $doc->getElementsByTagName('p'); 

    for ($l = 0; $l < $paras->length; $l++)
    {
        $para = $paras->item($l);
        $paraContent = $para->textContent;
        $urlDet['para'] .= trim_text($paraContent, 1000);
    }
$paras=$doc->getElementsByTagName('p');
对于($l=0;$l<$paras->length;$l++)
{
$para=$paras->item($l);
$paraContent=$para->textContent;
$urlDet['para'].=修剪文本($paraContent,1000);
}

感谢试图回答的人……

句子将如何划分?嗯。。如果页面开发人员已经注意到了这一点,那么它最好是一个句号,但如果不是,我不会介意一个长串接字符串,因为我只会提取前50个单词。希望能用以下句子来回答你的问题:“©版权所有苹果橙色LTDPosters要找到大量jay joes的印刷品和海报,包括框架选项,请键入“是的,正是我想要的,很抱歉唠叨,但是可以避免版权符号之类的特殊字符吗?”?