Pos tagger Mallet CRF单纯形词组/多词

Pos tagger Mallet CRF单纯形词组/多词,pos-tagger,mallet,phrases,crf,Pos Tagger,Mallet,Phrases,Crf,我是Mallet的新手,我正在尝试使用Mallet Simple tagger/CRF并尝试使用短语-我尝试在Mallet网站上查找文档,也查看了用户档案-没有任何帮助 我试着训练木槌做简单的标记,它的效果很好。。下面是我的数据的样子 (请注意,培训之间有一条换行线,表明它们是不同的集合) 培训数据样本: 请注意,在上述培训数据中,“新”是一个停止词 问题 对于简单的标记器,上面的表示可以吗?如果不是,我如何代表法尔赛人 如果不是,如何表示数据,以便SimpleTagger/CRF可以使用前面的

我是Mallet的新手,我正在尝试使用Mallet Simple tagger/CRF并尝试使用短语-我尝试在Mallet网站上查找文档,也查看了用户档案-没有任何帮助

我试着训练木槌做简单的标记,它的效果很好。。下面是我的数据的样子 (请注意,培训之间有一条换行线,表明它们是不同的集合)

培训数据样本: 请注意,在上述培训数据中,“新”是一个停止词 问题

  • 对于简单的标记器,上面的表示可以吗?如果不是,我如何代表法尔赛人
  • 如果不是,如何表示数据,以便SimpleTagger/CRF可以使用前面的“n”字到达标记?i、 有点像我的输入

  • 据我所知,您用于多词表达的格式不正确。 根据,输入的格式为Feature1 feature2 feature3

    所以,在你的例子中,纽约是特色1,纽约是特色2,等等

    我建议用纽约把你的多词表达作为一个词

    同时,您应该注意到,您不必在输入数据中包含单词本身。如果这样做,它们将被视为第一个功能。因此,如果“单词文本”或“单词引理”对您来说不是一个有趣的特性,请将其从输入数据中删除

    where STOPWORD
    is STOPWORD
    chicago CITY
    <---Newline---->
    Sunnyvale CITY
    <---Newline---->
    Chicago CITY
    <---Newline---->
    Washington CITY
    <---Newline---->
    What STOPWORD
    is STOPWORD
    Sunnyvale CITY
    time ASK
    <---Newline---->
    new STOPWORD
    <---Newline---->    
    place STOPWORD 
    
    new york CITY