Php 从网页的html转储中提取第一个完整格式的句子
我正在使用PHP开发一个应用程序,它使用CURL从另一个网页中提取所有句子。 虽然我能够提取所有数据,但我发现提取完整格式的句子有困难。我已经提到了所有相关的问题,并以我想要的方式帮助我。请指教 html内容,我需要从中提取完整格式的句子Php 从网页的html转储中提取第一个完整格式的句子,php,Php,我正在使用PHP开发一个应用程序,它使用CURL从另一个网页中提取所有句子。 虽然我能够提取所有数据,但我发现提取完整格式的句子有困难。我已经提到了所有相关的问题,并以我想要的方式帮助我。请指教 html内容,我需要从中提取完整格式的句子 <p><font size="1" color="#C0C0C0">© Copyright <br></font><a href="http://www.dddddd.com" target="_blank
<p><font size="1" color="#C0C0C0">© Copyright <br></font><a href="http://www.dddddd.com" target="_blank"><font size="1" color="#C0C0C0">apple orange Ltd</font></a><font size="1"color="#C0C0C0"><a href="http://sm2.dddd.com/stats.asp?site=sm2ph0t0" target="_top"><img src="http://sm2.dddd.com/meter.asp?site=sm2ph0t0" alt="Site Meter" border=0></a></font></p></td><td valign="top" width="24"></td><!--msnavigation--><td valign="top"><p align="center"><a href="http://www.orangeapple.com" target="_blank"><img border="0" src="asddaf.jpg" alt="Sponsored by Ace Murder Mystery" width="85" height="121"></a><font face="Times New Roman"><b><b><u>Posters</u></b><br><font size="3" color="#008080">To find a large selection of jay joes prints and posters including framing options, please type the word..<font color="#996633"> asdasd </font></a><font color="#996633"> </font> in the box below:<br><b>
©版权所有
海报
要查找大量jay joes印刷品和海报(包括框架选项),请键入单词。。asdasd在下面的框中:
基本上,如果你注意到有很多不相关的句子可能会出现。我想从上面的句子中提取一个字符串中至少有“6”个单词的句子
我应该得到“找到大量杰·乔的印刷品和海报”作为输出
谢谢,
Jay我通过以下方法解决了这个问题
$paras = $doc->getElementsByTagName('p');
for ($l = 0; $l < $paras->length; $l++)
{
$para = $paras->item($l);
$paraContent = $para->textContent;
$urlDet['para'] .= trim_text($paraContent, 1000);
}
$paras=$doc->getElementsByTagName('p');
对于($l=0;$l<$paras->length;$l++)
{
$para=$paras->item($l);
$paraContent=$para->textContent;
$urlDet['para'].=修剪文本($paraContent,1000);
}
感谢试图回答的人……句子将如何划分?嗯。。如果页面开发人员已经注意到了这一点,那么它最好是一个句号,但如果不是,我不会介意一个长串接字符串,因为我只会提取前50个单词。希望能用以下句子来回答你的问题:“©版权所有苹果橙色LTDPosters要找到大量jay joes的印刷品和海报,包括框架选项,请键入“是的,正是我想要的,很抱歉唠叨,但是可以避免版权符号之类的特殊字符吗?”?