如何在web浏览器的页面源代码中查看html实体代码

如何在web浏览器的页面源代码中查看html实体代码,html,entity,Html,Entity,我通过php cURL抓取/提取远程网页。为此,我必须查看php脚本的页面源代码。问题是,在远程页面中,一些文本在标记内。As保留换行符,所以我不能假设每行数据后面都有什么 如何查看带有换行符/换行符/etc html实体代码的页面源代码?因此,您希望转换 您可以使用新行搜索和提取所需的特定数据。首先,我将每个块加载到一个数组中 注:我看到 您必须将这两个部分分开,并分别进行处理。因此,对于这项工作,我假设它从文本中提取每一位数据,步骤如下: 将两个主要部分分开,分别进行处理 将第一部分中的每个

我通过php cURL抓取/提取远程网页。为此,我必须查看php脚本的页面源代码。问题是,在远程页面中,一些文本在标记内。As保留换行符,所以我不能假设每行数据后面都有什么


如何查看带有换行符/换行符/etc html实体代码的页面源代码?

因此,您希望转换 您可以使用新行搜索和提取所需的特定数据。首先,我将每个块加载到一个数组中

注:我看到 您必须将这两个部分分开,并分别进行处理。因此,对于这项工作,我假设它从文本中提取每一位数据,步骤如下:

将两个主要部分分开,分别进行处理 将第一部分中的每个块向上拆分 分割每个块中的每一行,并从中提取所需的数据 有两种方法可以做到这一点,或者分解所有内容,因为每个部分和子部分由不同数量的新行分隔,这将像这样有效地工作: $sections=分解“\n\n\n\n”,$pre\u text

或者使用正则表达式提取所有内容,或者使用这两种方法的组合。在本例中,我将使用正则表达式,不解释步骤1,只解释步骤2和步骤3

要将第一节中的每个块拆分为一个数组,可以使用以下正则表达式:

请在此处查看它的实际操作: ^^选择preg_match_all,否则它将不起作用

现在$blocks是一个包含每个块的数组,因为我使用的模式有两个捕获组,数组包含每个块的标题和文本本身,下面是数组的外观:

假设您想要从每个块中获取每一段数据,只需在每个块中循环并运行另一个正则表达式,该正则表达式使用空格来捕获有用的数据,因此如下所示:

你会发现:

你的问题不清楚。如果您需要查找新行,请寻找\n非常感谢您的精心回复。这对我会有很大帮助。但是我想在页面源代码中显示换行代码。例如,如果您看到一条红色线条的页面源->这是一个示例文本,您可能会在页面源中看到它,因为这是一个示例文本。以同样的方式,我可以看到一个正常的换行符,这是一个示例文本。但在标签之间的文本中,我看不到页面源代码中的换行符。i、 我想看到换行符是这样的:这是一个示例文本NL2BR。
All Category

ISSUES ADVANCED                 :                    133
ISSUES DECLINED                 :                    164
ISSUES UNCHANGED                :                     33
TOTAL ISSUES TRADED             :                    330


A Category (Equity)

ISSUES ADVANCED                 :                    101
ISSUES DECLINED                 :                    138
ISSUES UNCHANGED                :                     27
                PRICES IN PUBLIC TRANSACTIONS : 2017-03-19
               ==========================================
$pattern = '/([A-Za-z \(\)]+)\n(.*?)\n\n/ms';
preg_match_all($pattern,$text,$blocks);
foreach($matches as $block) {
   preg_match_all('/([A-Za-z \(\).]+)[ ]+:[ ]+(.*?)\n/ms',$block,$lines)
}