Perl 分段分句

Perl 分段分句,perl,Perl,我希望perl使用para中的分句 现在我使用Lingua::EN::句子模块,我可以在没有内部代码的情况下拆分句子 > <em> 输出: En meteen is er iets. Die voorstelling dat hapert > <p>luk heeft aan zichzelf genoeg, het heeft geen getuigen nodig. Then > <em class="xix">&l

我希望perl使用para中的分句

现在我使用Lingua::EN::句子模块,我可以在没有内部代码的情况下拆分句子

> <em>
输出:

En meteen is er iets.
Die voorstelling dat hapert




  > <p>luk heeft aan zichzelf genoeg, het heeft geen getuigen nodig. Then
    > <em class="xix"><span class="emph-xix-brl">anna Karenina</span>.
    > </em>Ik zou daar hooguit afkunnen. Hoe meer <em>getuigen hoe<em>
    > beter. Het alleen is.</p>
En meteen是iets。
哈伯特之死
>luk heeft aan zichzelf genoeg,heeft geen getuigen nodig。然后
>安娜·卡列尼娜。
>Ik zou daar Hougit afkunnen。Hoe meer getuigen锄头
>贝特。赫特·艾伦是


本段介绍如何拆分?

尝试在拆分前使用HTML::Strip删除标记

代码


您需要先删除HTML标记…我需要不删除标记的分句,然后您将得到不匹配的标记-
一个句子。
另一个句子

标记将不匹配且无效。如果一个句子在强调的部分内中断了,会发生什么?您需要手动将标记配对以生成有效的html。在本例中,我怀疑您必须剥离标记,找出句子的分句位置,然后查看原始HTMLDOM,找出如何在保留标记的同时在已知断点处拆分文本。这看起来很重要这个脚本非常有用,但是如何在不删除内部标记的情况下拆分,也许您应该指定,您的程序应该做什么,以及为什么要拆分句子。也许您可以使用HTML::Tree解析HTML,拆分没有HTML标记的元素,然后构建一个有效的HTML文件。顺便说一下:Lingua::EN在内部使用正则表达式,如果文本中包含一些html代码,可能会导致不需要的结果。
En meteen is er iets.
Die voorstelling dat hapert




  > <p>luk heeft aan zichzelf genoeg, het heeft geen getuigen nodig. Then
    > <em class="xix"><span class="emph-xix-brl">anna Karenina</span>.
    > </em>Ik zou daar hooguit afkunnen. Hoe meer <em>getuigen hoe<em>
    > beter. Het alleen is.</p>
#! /usr/bin/env perl
use strict;
use warnings;
use HTML::Strip;
use Data::Dumper;

use Lingua::EN::Sentence qw( get_sentences add_acronyms );

my $line = "En meteen is er iets. Die voorstelling dat hapert";
my $paragraph = '<p>luk heeft aan zichzelf genoeg, het heeft geen getuigen nodig. Then <em class="xix"><span class="emph-xix-brl">anna Karenina</span>.  </em>Ik zou daar hooguit afkunnen. Hoe meer <em>getuigen hoe<em>    beter. Het alleen is.</p>' ;

my $html_strip = HTML::Strip->new();
my $clean_paragraph = $html_strip->parse($paragraph);

my $sentences = get_sentences($clean_paragraph);

print Dumper($sentences);
$VAR1 = [
      'luk heeft aan zichzelf genoeg, het heeft geen getuigen nodig.',
      'Then anna Karenina .  Ik zou daar hooguit afkunnen.',
      'Hoe meer getuigen hoe    beter.',
      'Het alleen is.'
    ];