使用PerlXML::SAX修改XML文档

使用PerlXML::SAX修改XML文档,xml,perl,sax,Xml,Perl,Sax,我正试图使用XML::SAX修改XHTML文档的某些部分,但所有尝试都失败了 以下是我想做的: #!/usr/bin/perl package MyHandler; use strict; use warnings; use base qw(XML::SAX::Base); use Data::Dumper; sub start_element { my $self = shift; my $data = shift; if( $data->{LocalNa

我正试图使用XML::SAX修改XHTML文档的某些部分,但所有尝试都失败了

以下是我想做的:

#!/usr/bin/perl 
package MyHandler;
use strict;
use warnings;

use base qw(XML::SAX::Base);
use Data::Dumper;

sub start_element {
    my $self = shift;
    my $data = shift;

    if( $data->{LocalName} eq 'span') {
        $data->{LocalName} = 'naps';
    }

    $self->SUPER::start_element($data); # GOOD (and easy) !
    #print Dumper($data); 
}

1;

#============================
#Main programm
#============================
use strict;
use warnings;

use XML::SAX::ParserFactory;
use XML::SAX::Writer;

my $out;

my $o = XML::SAX::Writer->new( Output => \$out );
my $h = MyHandler->new( Handler => $o );
my $p = XML::SAX::ParserFactory->parser(Handler => $h);

my $data;
{ local undef $/ }; $data = <DATA>;
$p->parse_string( $data );
print $out;


__DATA__
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:wicket="http://wicket.apache.org/dtds.data/wicket-xhtml1.4-strict.dtd">
<body>
<wicket:panel>
    <form wicket:id="mvpForm">
        <span>Edit Information: </span>
        <input type="checkbox" wicket:id="editForm"/>

        <span>Name: </span>
        <span wicket:id="name"></span>
        <input type="text" wicket:id="nameEdit"/>

        <span>Last Name: </span>
        <span wicket:id="lastName"></span>
        <input type="text" wicket:id="lastNameEdit"/>

        <span>DOB: </span>
        <span wicket:id="dob"></span>
        <input type="text" wicket:id="dobEdit"/>


        <span>Occupation: </span>
        <span wicket:id="occupation"></span>
        <input type="text" wicket:id="occupationEdit"/>


        <span>Gender: </span>
        <span wicket:id="gender"></span>
        <span wicket:id="genderEdit"/>

        <input type="submit" wicket:id="submit"/>

    </form>
</wicket:panel>
</body>
</html> 
#/usr/bin/perl
包MyHandler;
严格使用;
使用警告;
使用base-qw(XML::SAX::base);
使用数据::转储程序;
子启动单元{
我的$self=shift;
我的$data=shift;
如果($data->{LocalName}eq'span'){
$data->{LocalName}='naps';
}
$self->SUPER::start_元素($data)#很好(很简单)!
#打印转储程序(数据);
}
1.
#============================
#主程序
#============================
严格使用;
使用警告;
使用XML::SAX::ParserFactory;
使用XML::SAX::Writer;
我的美元用完了;
my$o=XML::SAX::Writer->new(输出=>\$out);
my$h=MyHandler->new(Handler=>$o);
我的$p=XML::SAX::ParserFactory->parser(处理程序=>$h);
我的$数据;
{本地未定义$/}$数据=;
$p->parse_字符串($data);
打印美元;
__资料__
编辑信息:
姓名:
姓氏:
出生日期:
职业:
性别:
基本思想是将每个“span”更改为“naps”,并将修改后的XML写入标准输出

另外,最好看看是否可以使用SAX合并xml块,换句话说,如果我发现某个特定元素被扩展为其他元素,如何将其与输出合并到STDOUT

例如。 发件人:


致:


这是一个扩展元素

谢谢。

似乎编写器从键name中选择元素名称,而不是LocalName。因此,不要修改LocalName而是修改Name以获得所需的结果

if( $data->{LocalName} eq 'span') {
    $data->{LocalName} = 'naps';
}
换成

if( $data->{LocalName} eq 'span') {
    $data->{Name} = 'naps';
}

似乎编写器从键name中选择元素名称,而不是LocalName。因此,不要修改LocalName而是修改Name以获得所需的结果

if( $data->{LocalName} eq 'span') {
    $data->{LocalName} = 'naps';
}
换成

if( $data->{LocalName} eq 'span') {
    $data->{Name} = 'naps';
}

SAX并不是进行此类琐碎更改的最佳工具。考虑DOM实现。

use strictures;
use XML::LibXML qw();
my $dom = XML::LibXML->load_xml(…);

for my $e ($dom->findnodes('//*')) {
    $e->setNodeName('naps') if 'span' eq $e->nodeName;
    if ('expandable' eq $e->nodeName) {
        $e->setNodeName('expanded');
        $e->appendText('This is an expanded element');
    }
}
print $dom->toString; # ->toFile

SAX并不是进行此类琐碎更改的最佳工具。考虑DOM实现。

use strictures;
use XML::LibXML qw();
my $dom = XML::LibXML->load_xml(…);

for my $e ($dom->findnodes('//*')) {
    $e->setNodeName('naps') if 'span' eq $e->nodeName;
    if ('expandable' eq $e->nodeName) {
        $e->setNodeName('expanded');
        $e->appendText('This is an expanded element');
    }
}
print $dom->toString; # ->toFile
这是一个基于的解决方案,我发现它比SAX更容易使用(但我可能有点偏颇;--)。它非常节省内存,因为内存中只保留了1个
span
(或
expandable
)元素

#!/usr/bin/perl

use strict;
use warnings;

use XML::Twig;

XML::Twig->new( twig_roots => { span       => sub { $_->set_tag( 'naps')->flush; },
                                expandable => sub { XML::Twig::Elt->new( expanded => 'this is an expanded element')->print; },
                              },
                twig_print_outside_roots => 1,
              )
          ->parsefile( \*DATA);
__DATA__
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:wicket="http://wicket.apache.org/dtds.data/wicket-xhtml1.4-strict.dtd">
<body>
<wicket:panel>
    <form wicket:id="mvpForm">
        <span>Edit Information: </span>
        <input type="checkbox" wicket:id="editForm"/>

        <span>Name: </span>
        <span wicket:id="name"></span>
        <input type="text" wicket:id="nameEdit"/>

        <span>Last Name: </span>
        <span wicket:id="lastName"></span>
        <input type="text" wicket:id="lastNameEdit"/>

        <span>DOB: </span>
        <span wicket:id="dob"></span>
        <input type="text" wicket:id="dobEdit"/>


        <span>Occupation: </span>
        <span wicket:id="occupation"></span>
        <input type="text" wicket:id="occupationEdit"/>


        <span>Gender: </span>
        <span wicket:id="gender"></span>
        <span wicket:id="genderEdit"/>

        <input type="submit" wicket:id="submit"/>

    </form>

<xmltag>
    <expandable/>
</xmltag>

</wicket:panel>
</body>
</html> 
#/usr/bin/perl
严格使用;
使用警告;
使用XML::Twig;
XML::Twig->new(Twig\u根=>{span=>sub{$\u->set\u标记('naps')->flush;},
expandable=>sub{XML::Twig::Elt->new(expanded=>'这是一个扩展元素')->print;},
},
细枝打印在根外=>1,
)
->解析文件(\*数据);
__资料__
编辑信息:
姓名:
姓氏:
出生日期:
职业:
性别:
这里有一个基于的解决方案,我发现它比SAX更容易使用(但是我可能有点偏颇;--)。它非常节省内存,因为内存中只保留了1个
span
(或
expandable
)元素

#!/usr/bin/perl

use strict;
use warnings;

use XML::Twig;

XML::Twig->new( twig_roots => { span       => sub { $_->set_tag( 'naps')->flush; },
                                expandable => sub { XML::Twig::Elt->new( expanded => 'this is an expanded element')->print; },
                              },
                twig_print_outside_roots => 1,
              )
          ->parsefile( \*DATA);
__DATA__
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:wicket="http://wicket.apache.org/dtds.data/wicket-xhtml1.4-strict.dtd">
<body>
<wicket:panel>
    <form wicket:id="mvpForm">
        <span>Edit Information: </span>
        <input type="checkbox" wicket:id="editForm"/>

        <span>Name: </span>
        <span wicket:id="name"></span>
        <input type="text" wicket:id="nameEdit"/>

        <span>Last Name: </span>
        <span wicket:id="lastName"></span>
        <input type="text" wicket:id="lastNameEdit"/>

        <span>DOB: </span>
        <span wicket:id="dob"></span>
        <input type="text" wicket:id="dobEdit"/>


        <span>Occupation: </span>
        <span wicket:id="occupation"></span>
        <input type="text" wicket:id="occupationEdit"/>


        <span>Gender: </span>
        <span wicket:id="gender"></span>
        <span wicket:id="genderEdit"/>

        <input type="submit" wicket:id="submit"/>

    </form>

<xmltag>
    <expandable/>
</xmltag>

</wicket:panel>
</body>
</html> 
#/usr/bin/perl
严格使用;
使用警告;
使用XML::Twig;
XML::Twig->new(Twig\u根=>{span=>sub{$\u->set\u标记('naps')->flush;},
expandable=>sub{XML::Twig::Elt->new(expanded=>'这是一个扩展元素')->print;},
},
细枝打印在根外=>1,
)
->解析文件(\*数据);
__资料__
编辑信息:
姓名:
姓氏:
出生日期:
职业:
性别:

为了回答我自己关于合并/扩展元素的问题,这里有一个关于如何使用sax的片段:

#!/usr/bin/perl 
package MyHandler;
use strict;
use warnings;

use base qw(XML::SAX::Base);
use Data::Dumper;

use XML::SAX::ParserFactory;
use XML::SAX::Writer;

sub start_element {
    my $self = shift;
    my $data = shift;

    if( $data->{LocalName} eq 'expand') {
        $self->{in_include}++;
        my $p = XML::SAX::ParserFactory->parser( Handler => $self );
        $p->parse_string( "<expanded>This is my expanded tag</expanded>" );
        return;
    }

    #$data->{Attributes} = undef;
    $self->SUPER::start_element($data);
    #print Dumper($data); 
}

sub characters {
    my $self = shift;
    my $data = shift;

    #print "Data is $data->{Data}" if defined $data->{Data}; 
    $self->SUPER::characters($data);
}

sub end_element {
    my ($self, $element) = @_;
    if ($element->{LocalName} eq "expand") {
        $self->{in_include}--;
    } else {
        $self->SUPER::end_element($element);
    }
}

sub start_document { # same for end_document
    my($self, $data) = @_;
    return if($self->{in_include});
    $self->SUPER::start_document($data);
}

sub end_document { # same for end_document
    my($self, $data) = @_;
    return if($self->{in_include});
    $self->SUPER::end_document($data);
}

1;

#============================
#Main programm
#============================
use strict;
use warnings;

use XML::SAX::ParserFactory;
use XML::SAX::Writer;

my $out;

my $o = XML::SAX::Writer->new( Output => \$out );
my $h = MyHandler->new( Handler => $o );
my $p = XML::SAX::ParserFactory->parser(Handler => $h);

my $data;
{ local undef $/ }; $data = <DATA>;
$p->parse_string( $data );
print $out;


__DATA__
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:wicket="http://wicket.apache.org/dtds.data/wicket-xhtml1.4-strict.dtd">
<body>
<wicket:panel>
    <form wicket:id="mvpForm">
        <span>Edit Information: </span>
        <input type="checkbox" wicket:id="editForm"/>

        <span>Name: </span>
        <span wicket:id="name"></span>
        <input type="text" wicket:id="nameEdit"/>

        <span>Last Name: </span>
        <span wicket:id="lastName"></span>
        <input type="text" wicket:id="lastNameEdit"/>

        <span>DOB: </span>
        <span wicket:id="dob"></span>
        <input type="text" wicket:id="dobEdit"/>

        <span>Occupation: </span>
        <span wicket:id="occupation"></span>
        <input type="text" wicket:id="occupationEdit"/>

        <span>Gender: </span>
        <span wicket:id="gender"></span>
        <span wicket:id="genderEdit"/>

        <input type="submit" wicket:id="submit"/>

        <expand/>

    </form>
</wicket:panel>
</body>
</html> 
#/usr/bin/perl
包MyHandler;
严格使用;
使用警告;
使用base-qw(XML::SAX::base);
使用数据::转储程序;
使用XML::SAX::ParserFactory;
使用XML::SAX::Writer;
子启动单元{
我的$self=shift;
我的$data=shift;
如果($data->{LocalName}eq'expand'){
$self->{in_include}++;
my$p=XML::SAX::ParserFactory->parser(Handler=>$self);
$p->parse_字符串(“这是我的扩展标签”);
返回;
}
#$data->{Attributes}=undf;
$self->SUPER::start\u元素($data);
#打印转储程序(数据);
}
子字符{
我的$self=shift;
我的$data=shift;
#如果定义了$Data->{Data},则打印“Data为$Data->{Data}”;
$self->SUPER::characters($data);
}
子端元素{
我的($self,$element)=@;
if($element->{LocalName}eq“expand”){
$self->{in_include}--;
}否则{
$self->SUPER::end_元素($element);
}
}
子开始_文档{#与结束_文档相同
我的($self,$data)=@;
返回if($self->{in_include});
$self->SUPER::启动文档($data);
}
子end_文件{#与end_文件相同
我的($self,$data)=@;
返回if($self->{in_include});
$self->SUPER::结束文档($data);
}
1.
#============================
#主程序
#============================
严格使用;
使用警告;
使用XML::SAX::ParserFactory;
使用XML::SAX::Writer;
我的美元用完了;
my$o=XML::SAX::Writer->new(输出=>\$out);
my$h=MyHandler->new(Handler=>$o);
我的$p=XML::SAX::ParserFactory->parser(处理程序=>$h);
我的$数据;
{本地未定义$/}$数据=;
$p->parse_字符串($data);
打印美元;
__资料__
编辑信息:
姓名:
姓氏:
出生日期:
职业: