Nlp 可能平衡unidic与unidic neologd?

Nlp 可能平衡unidic与unidic neologd?,nlp,mecab,Nlp,Mecab,用这句话"場所は多少わかりづらいんですけど、感じのいいところでした。" (即“这有点难找到,但这是个好地方。”)使用mecab和-d mecab unidic neologd第一行输出为: 場所 バショ バショ 場所 名詞-固有名詞-人名-姓 也就是说,上面写着“場所“是一个人的姓氏。使用普通的mecab unidic更准确地表示”場所“只是一个简单的名词 場所 バショ バショ 場所 名詞-普通名詞-一般 我的第一个问题是unidic neologd是否替换了unidi

用这句话"場所は多少わかりづらいんですけど、感じのいいところでした。" (即“这有点难找到,但这是个好地方。”)使用
mecab
-d mecab unidic neologd
第一行输出为:

場所  バショ バショ 場所  名詞-固有名詞-人名-姓
也就是说,上面写着“場所“是一个人的姓氏。使用普通的mecab unidic更准确地表示”場所“只是一个简单的名词

場所  バショ バショ 場所  名詞-普通名詞-一般      
我的第一个问题是unidic neologd是否替换了unidic中的所有条目,或者它只是附加了300万个专有名词

然后,第二,假设这是一次合并,是否有可能对条目进行重新加权,以更强烈地选择普通的unidic条目?也就是说,我希望中居正広のミになる図書館 SMAP和SMAP都被识别为单独的专有名词,但我也需要它来了解这一点場所 总是表示“地点”(除非后面跟一个名称后缀,例如さん 或様, 当然)


参考资料:

Neologd与unidic(或ipadic)合并,这就是它在名称中保留“unidic”的原因。如果一个条目有多个词性,例如場所, 通过使用词性转换最小化整个句子的成本,以及字典中的单词的每标记成本,来选择要使用的条目

如果查看包含neologd词典条目的CSV文件,您将看到場所:

場所,4786,4786,4329,名詞,固有名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*                              
場所,4790,4790,4329,名詞,固有名詞,人名,姓,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*
lex.csv
中,默认的unidic字典:

場所,5145,5145,4193,名詞,普通名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,混,*,*,*,*
第四列是成本。更可能选择成本较低的项目,因此在这种情况下,您可以提高成本場所 作为一个专有名词,老实说,我只是想删除它。你可以阅读更多关于摆弄成本的内容(日语)

如果要更强烈地对所有默认unidic条目进行加权,可以修改neolog CSV文件以增加所有权重。这是创建类似以下文件的一种方法:

awk -F, 'BEGIN{OFS=FS}{$4 = $4 * 100; print $0}' neolog.csv > neolog.fix.csv
在构建之前,您必须删除原始csv文件(请参见下面的注释2)

在这种情况下,我认为您应该将其作为一个bug报告给Neologd项目


注1:如上所述,由于选择哪个条目取决于整个句子,因此即使使用默认配置,也可以获得非专有名词标记。示例句子:

お店の場所知っている?

注2:neologd词典与默认unidic词典的结合方式基于Mecab词典构建工作的微妙方面。具体而言,在创建系统词典时使用词典构建目录中的所有CSV文件。未指定顺序,因此不清楚colli的情况会发生什么幻觉

Mecab文档(日语)中提到了此功能