WWW:：Mechanize在为html实体注册时遇到问题_Html_Perl_Html Entities_Www Mechanize

WWW:：Mechanize在为html实体注册时遇到问题

html perl

WWW:：Mechanize在为html实体注册时遇到问题,html,perl,html-entities,www-mechanize,Html,Perl,Html Entities,Www Mechanize,我正在尝试获取此页面（以及其他类似页面）上的第一个（规则）链接。按照web 2.0标准，该链接的标记相当苛刻： <A HREF="readtac$ext.TacPage?sl=R&app=9&p_dir=&p_rloc=&p_tloc=&p_ploc=&pg=1&p_tac=&ti=1&pt=1&ch=3&rl=1" NAME="§3.1"> <font SIZ

我正在尝试获取此页面（以及其他类似页面）上的第一个（规则）链接。按照web 2.0标准，该链接的标记相当苛刻：

<A HREF="readtac$ext.TacPage?sl=R&app=9&p_dir=&p_rloc=&p_tloc=&p_ploc=&pg=1&p_tac=&ti=1&pt=1&ch=3&rl=1" 
   NAME="&sect;3.1">
  <font SIZE="4">&sect;3.1</font>
</A>

我唯一能想到的是大写属性混淆了这一点。。。对于编写得更好的标记的其他琐碎测试允许我使用中的任何链接方法。有几分钟，我挠头，想知道我是否需要逃离符号。然后我切换到text_regex。。。但我觉得这个糟糕的字体标签把事情搞砸了

因此，我有两个相关的问题：首先，这些属性被假定为小写（它是如何看到

href

的？）。第二，这里有没有我遗漏的明显的解决方法

[编辑]霍布斯是正确的，这是一个将实体机械化咀嚼回实际角色的案例。您无法获得原始源html。文字字符可能由于某些字符编码问题（毕竟是perl）而无法工作，但十六进制转义实现了这一点。如果你想填写答案，霍布斯，我会把它标记为正确答案

仍然在试图找出Stackoverflow的错误，我在一个关于你必须稍微聪明一点的问题上被否决了。。。我猜每个人都在试图得分或者做维基百科排斥主义的事情。也许是时候停止在这里提问了。

我现在还不清楚为什么在

name

上搜索失败，我也是如此

但是，这些链接中url的结尾（用于“规则”）以与“名称”相同的方式标识它们，我们可以使用

url\u regex=>qr/rl=\d+$/

来识别它们

use warnings 'all';
use strict;    

use WWW::Mechanize;

my $url = 'your url';

my $mech = WWW::Mechanize->new();

$mech->get( $url )  or die "Can't get url: $!";

my @all_rules = $mech->find_all_links( url_regex => qr/rl=\d+$/ );

print "$_->url()\n" for @all_rules;

这将打印所有这10条规则的url（使用链接中的url）

另一种方式是获得页面上的第二张表格，从而将该内容与其他内容分开。然后将链接作为其

的唯一内容撬出。可以帮助解决这个问题，也可以绕过编码问题，因为我们可以获得原始HTML（测试）

更新

这个答案显然使用了不同的方法，而是搜索链接本身

因为有人解释说有“4000个单独的页面”，链接也不那么可靠，所以最好的方法可能是按照要求使用

name

属性。在这种情况下，我们应该考虑整个实体<代码>和>；代码>，如其他答案（以及作者的早期评论）所示

关于这个答案背后的理由的评论。在

name

属性中搜索HTML实体完全取决于特定字符，因此更全面的方法也应该有用。例如，可以识别所寻求内容中的模式（在本例中为链接文本），或者使用文档结构来关注内容（在本例中为表）