Nlp 可能平衡unidic与unidic neologd？_Nlp_Mecab

Nlp 可能平衡unidic与unidic neologd？

nlp

Nlp 可能平衡unidic与unidic neologd？,nlp,mecab,Nlp,Mecab,用这句话"場所は多少わかりづらいんですけど、感じのいいところでした。" （即“这有点难找到，但这是个好地方。”）使用mecab和-d mecab unidic neologd第一行输出为：場所バショバショ場所名詞-固有名詞-人名-姓也就是说，上面写着“場所“是一个人的姓氏。使用普通的mecab unidic更准确地表示”場所“只是一个简单的名词場所バショバショ場所名詞-普通名詞-一般我的第一个问题是unidic neologd是否替换了unidi

用这句话"場所は多少わかりづらいんですけど、感じのいいところでした。" （即“这有点难找到，但这是个好地方。”）使用

mecab

和

-d mecab unidic neologd

第一行输出为：

場所  バショ バショ 場所  名詞-固有名詞-人名-姓

也就是说，上面写着“場所“是一个人的姓氏。使用普通的mecab unidic更准确地表示”場所“只是一个简单的名词

場所  バショ バショ 場所  名詞-普通名詞-一般

我的第一个问题是unidic neologd是否替换了unidic中的所有条目，或者它只是附加了300万个专有名词

然后，第二，假设这是一次合并，是否有可能对条目进行重新加权，以更强烈地选择普通的unidic条目？也就是说，我希望中居正広のミになる図書館 SMAP和SMAP都被识别为单独的专有名词，但我也需要它来了解这一点場所总是表示“地点”（除非后面跟一个名称后缀，例如さん或様, 当然）

参考资料：

Neologd与unidic（或ipadic）合并，这就是它在名称中保留“unidic”的原因。如果一个条目有多个词性，例如場所, 通过使用词性转换最小化整个句子的成本，以及字典中的单词的每标记成本，来选择要使用的条目

如果查看包含neologd词典条目的CSV文件，您将看到場所:

場所,4786,4786,4329,名詞,固有名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*                              
場所,4790,4790,4329,名詞,固有名詞,人名,姓,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*

在

lex.csv

中，默认的unidic字典：

場所,5145,5145,4193,名詞,普通名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,混,*,*,*,*

第四列是成本。更可能选择成本较低的项目，因此在这种情况下，您可以提高成本場所作为一个专有名词，老实说，我只是想删除它。你可以阅读更多关于摆弄成本的内容（日语）

如果要更强烈地对所有默认unidic条目进行加权，可以修改neolog CSV文件以增加所有权重。这是创建类似以下文件的一种方法：

awk -F, 'BEGIN{OFS=FS}{$4 = $4 * 100; print $0}' neolog.csv > neolog.fix.csv

在构建之前，您必须删除原始csv文件（请参见下面的注释2）

在这种情况下，我认为您应该将其作为一个bug报告给Neologd项目

注1：如上所述，由于选择哪个条目取决于整个句子，因此即使使用默认配置，也可以获得非专有名词标记。示例句子：

お店の場所知っている？

注2：neologd词典与默认unidic词典的结合方式基于Mecab词典构建工作的微妙方面。具体而言，在创建系统词典时使用词典构建目录中的所有CSV文件。未指定顺序，因此不清楚colli的情况会发生什么幻觉

Mecab文档（日语）中提到了此功能