Nlp MeCab输出和标记集是什么?

Nlp MeCab输出和标记集是什么?,nlp,translation,nltk,pos-tagger,mecab,Nlp,Translation,Nltk,Pos Tagger,Mecab,有人能告诉我MeCab的默认输出吗?MeCab输出什么注释?在哪里可以找到形态分析仪的标记集 有人能破译MeCab的输出吗 <s> ブギス・ジャンクション ブギス・ジャンクション ブギス・ジャンクション 名詞-一般 に ニ に 助詞-格助詞-一般 は ハ は 助詞-係助詞 最も モットモ 最も 副詞-一般 買い カイ 買う 動詞-自立 五段・ワ行促音便 連用形 物慣れ モノナレ

有人能告诉我MeCab的默认输出吗?MeCab输出什么注释?在哪里可以找到形态分析仪的标记集

有人能破译MeCab的输出吗

<s>
ブギス・ジャンクション ブギス・ジャンクション ブギス・ジャンクション 名詞-一般       
に   ニ   に   助詞-格助詞-一般       
は   ハ   は   助詞-係助詞      
最も  モットモ    最も  副詞-一般       
買い  カイ  買う  動詞-自立   五段・ワ行促音便    連用形
物慣れ モノナレ    物慣れる    動詞-自立   一段  連用形
し   シ   する  動詞-自立   サ変・スル   連用形
た   タ   た   助動詞 特殊・タ    基本形
人々  ヒトビト    人々  名詞-一般       
を   ヲ   を   助詞-格助詞-一般       
も   モ   も   助詞-係助詞      
魅了  ミリョウ    魅了  名詞-サ変接続     
する  スル  する  動詞-自立   サ変・スル   基本形
品   シナ  品   名詞-一般       
揃え  ソロエ 揃える 動詞-自立   一段  連用形
が   ガ   が   助詞-格助詞-一般       
あり  アリ  ある  動詞-自立   五段・ラ行   連用形
ます  マス  ます  助動詞 特殊・マス   基本形
。   。   。   記号-句点       
</s>

ブギス・ジャンクション ブギス・ジャンクション ブギス・ジャンクション 名詞-一般       
に   ニ   に   助詞-格助詞-一般       
は   ハ   は   助詞-係助詞      
最も  モットモ    最も  副詞-一般       
買い  カイ  買う  動詞-自立   五段・ワ行促音便    連用形
物慣れ モノナレ    物慣れる    動詞-自立   一段  連用形
し   シ   する  動詞-自立   サ変・スル   連用形
た   タ   た   助動詞 特殊・タ    基本形
人々  ヒトビト    人々  名詞-一般       
を   ヲ   を   助詞-格助詞-一般       
も   モ   も   助詞-係助詞      
魅了  ミリョウ    魅了  名詞-サ変接続     
する  スル  する  動詞-自立   サ変・スル   基本形
品   シナ  品   名詞-一般       
揃え  ソロエ 揃える 動詞-自立   一段  連用形
が   ガ   が   助詞-格助詞-一般       
あり  アリ  ある  動詞-自立   五段・ラ行   連用形
ます  マス  ます  助動詞 特殊・マス   基本形
。   。   。   記号-句点       

示例中的输出格式似乎是chasen2,它在dicrc文件中定义。 这将是:

; ChaSen (include spaces)
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen2  = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen2  = EOS\n
1. surface value, including any whitespace
2. \t
3. reading
4. \t
5. root form
6. \t
7. part of speech
8. part of speech, subtype 1
9. part of speech, subtype 2
10. part of speech, subtype 3
11. \t
12. conjugation
13. \t
14. inflection
15. newline
对于普通节点格式,这将是:

; ChaSen (include spaces)
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen2  = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen2  = EOS\n
1. surface value, including any whitespace
2. \t
3. reading
4. \t
5. root form
6. \t
7. part of speech
8. part of speech, subtype 1
9. part of speech, subtype 2
10. part of speech, subtype 3
11. \t
12. conjugation
13. \t
14. inflection
15. newline
其中项目7至10以连字符分隔

有关更多详细信息,请参阅For mecab


编辑:更新指向MeCab输出格式解释页面的链接。

任何人都可以解释输出?至少用外行的话来说,谢谢你buruzaemon san。我的日语水平很低,所以我很难阅读文档。我试着阅读了IPAdic 2.7.0手册,我了解了一点,我想不出输出格式。再次感谢。我认为链接(格式文档)已经过期(至少对我来说不起作用),作者的github页面位于和;顺便说一句,对于文本到语音(以及做furigana)应用程序,我个人更喜欢使用“--output format type=yomi”,谢谢你让我知道了那个过时的链接,@HidekiAI