Perl Lingua::TreeTagger标记词性标记中仅第一个单词
我使用的是词性标记,但它的标记只是字符串的第一个单词Perl Lingua::TreeTagger标记词性标记中仅第一个单词,perl,nlp,pos-tagger,Perl,Nlp,Pos Tagger,我使用的是词性标记,但它的标记只是字符串的第一个单词 my $tagger = Lingua::TreeTagger->new( 'language' => 'english', 'options' => [ qw( -token -lemma -no-unknown ) ], ); $text_to_tag = 'I another yet sample text I.'; my $tagged_text = $tagger->tag_text( \$
my $tagger = Lingua::TreeTagger->new(
'language' => 'english',
'options' => [ qw( -token -lemma -no-unknown ) ],
);
$text_to_tag = 'I another yet sample text I.';
my $tagged_text = $tagger->tag_text( \$text_to_tag );
print Dumper $tagged_text;
上述翻车机的输出如下:
'sequence' => [
bless( {
'is_SGML_tag' => 0,
'original' => 'I',
'tag' => 'PP',
'lemma' => 'I'
}, 'Lingua::TreeTagger::Token' )
],
请注意,这里只标记了
I
,但我想标记整个句子。在我的实际代码中,我想标记文件的内容我如何标记句子中的所有单词?非常感谢您的帮助。这标记了所有标记,但我的树形标记器安装只有lib/english-utf8.par
参数文件,因此我不得不将use_utf8=>1
添加到new()
的参数中。这只是一个猜测,但可能您的英文参数文件不完整。-no unknown
似乎意味着根据打印标记而不是未知引理,但它仍然看起来只找到了I
,因为它不知道其他单词。我已经更改了句子中单词的顺序,它仍然打印关于第一个单词的内容。这意味着,它知道所有的单词,但不滚动到下一个。我想我错过了一些非常基本的东西。感谢您的评论:)