Javascript 使用perl抓取站点的JS内容
我正在放弃它,并寻找代码示例来帮助我找出如何检索这个JSP控件内部的信息(这比使用常规文本要困难得多!)。我似乎找不到任何带有HTTP头的内容。以下是我目前的代码:Javascript 使用perl抓取站点的JS内容,javascript,perl,jsp,mechanize,Javascript,Perl,Jsp,Mechanize,我正在放弃它,并寻找代码示例来帮助我找出如何检索这个JSP控件内部的信息(这比使用常规文本要困难得多!)。我似乎找不到任何带有HTTP头的内容。以下是我目前的代码: my $mech_r = new WWW::Mechanize(); my $uri = 'http://global.krx.co.kr/contents/GLB/02/0203/0203000000/GLB0203000000.jsp'; print "Getting '$uri'\n"; my $page = $me
my $mech_r = new WWW::Mechanize();
my $uri = 'http://global.krx.co.kr/contents/GLB/02/0203/0203000000/GLB0203000000.jsp';
print "Getting '$uri'\n";
my $page = $mech_r->get($uri);
print "Parsing data...";
my $root = HTML::TreeBuilder->new_from_content($mech_r->content());
my ($news_table) = $root->look_down(
sub {
defined($_[0]->tag()) and
$_[0]->tag() eq 'ul' and
defined($_[0]->attr('class')) and
$_[0]->attr('class') eq 'board-list'
}
);
if (!defined($news_table)) {
print Dumper($root);
croak "Could not get the news table";
}
我想得到标题,日期和链接
但是在javascript加载时没有获取任何数据。如文档所述,不处理javascript。请尝试、或类似操作。如文件所述,不处理JavaScript。尝试、、或类似操作。我正在尝试Selenium,但我在运行服务器时遇到了问题>>java-jar Selenium-server-standalone-2.44.0.jar 03:05:27.879 INFO-Started org.openqa.jetty.jetty。Server@2a5330Just对于未来的观众,不要尝试WWW::Mechanize::Firefox和WWW::Selenium,这两个项目都在尝试Selenium,但我一直在运行服务器>>java-jar Selenium-server-standalone-2.44.0.jar 03:05:27.879 INFO-Started org.openqa.jetty.jetty。Server@2a5330Just对于未来的观众,不要尝试WWW::Mechanize::Firefox和WWW::Selenium,这两个项目都是eol