Text mining 在《福伽士词典》中添加新词

Text mining 在《福伽士词典》中添加新词,text-mining,mecab,Text Mining,Mecab,我用fugashi从句子中提取单词。 如何向字典中添加fugacy字典中没有的新术语 例如,YouTube分为“You”和“Tube” =>['ユー', 'チューブ'] 我还没有找到合适的指南,但基本上你应该遵循,但是你可以使用fugashi build dict而不是mecab dict index 要给出简要说明,首先需要制作一个与系统词典格式相同的CSV文件。该文件基于unidic lite 令和,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,

我用fugashi从句子中提取单词。 如何向字典中添加fugacy字典中没有的新术语

例如,YouTube分为“You”和“Tube”


=>['ユー', 'チューブ']

我还没有找到合适的指南,但基本上你应该遵循,但是你可以使用
fugashi build dict
而不是
mecab dict index

要给出简要说明,首先需要制作一个与系统词典格式相同的CSV文件。该文件基于
unidic lite

令和,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,令和,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*
㋿,5969,5969,2588,補助記号,一般,*,*,*,*,,㋿,㋿,,㋿,,記号,*,*,*,*,*,*,*,,,,,*,*,*,*,999999
㋿,4786,4786,3992,名詞,固有名詞,一般,*,*,*,レイワ,令和,㋿,レーワ,㋿,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*
夢夢,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,令和,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*
您可以通过复制UniDic源中的条目并编辑字段来执行此操作。然后运行以下命令:

fugashi-build-dict -d dicdir/ -u mydic.dic mydic.csv

dicdir
是您的系统字典的位置,
mydic.csv
是您制作的csv文件。这将创建
mydic.dic
文件,然后您可以通过指定
-u mydic.dic

来与fugashi一起使用该文件。是否有unidic lite字段指南,特别是开头的三个数字e?我认为是针对IPADIC的,前三个数字是
左上下文id
右上下文id
(可以是-1)和
成本
。有关于使用哪些数字的指导吗ユーチューブ?你对前三个数字的看法是正确的——在每个MeCab字典中都是相同的,详情请参阅MeCab文档。对于其他数字,花费100通常是可以的,对于其他数字,你需要找到一个类似的术语(词性等)在您使用的字典中。unidic lite基于unidic 2.1.2,带有重音注释。谢谢您的回答。我想再问您一个问题。正如您所说,我执行了命令
fugashi build dict-d mymecabdicdir/-u mydic.dic csvfile.csv
,但是,我得到了
dictionary.cpp(304)[ifs]没有这样的文件或目录:utf8
错误。将命令开头的
fugashi build dict
修改为
/usr/local/libexec/mecab/mecab dict index
将不会有任何问题。我还将fugashi版本设置为1.1.0。有问题吗?啊,看起来
fugashi build dict
有一个错误,无法工作。发布了一个修复程序,很快就会发布。一般来说,不要在评论中跟踪堆栈溢出,这很难跟踪,请在Github上打开一个问题。
fugashi-build-dict -d dicdir/ -u mydic.dic mydic.csv