Text mining 在《福伽士词典》中添加新词_Text Mining_Mecab

Text mining 在《福伽士词典》中添加新词

Text mining 在《福伽士词典》中添加新词,text-mining,mecab,Text Mining,Mecab,我用fugashi从句子中提取单词。如何向字典中添加fugacy字典中没有的新术语例如，YouTube分为“You”和“Tube” =>['ユー', 'チューブ'] 我还没有找到合适的指南，但基本上你应该遵循，但是你可以使用fugashi build dict而不是mecab dict index 要给出简要说明，首先需要制作一个与系统词典格式相同的CSV文件。该文件基于unidic lite 令和,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,

我用fugashi从句子中提取单词。如何向字典中添加fugacy字典中没有的新术语

例如，YouTube分为“You”和“Tube”

=>['ユー', 'チューブ']

我还没有找到合适的指南，但基本上你应该遵循，但是你可以使用

fugashi build dict

而不是

mecab dict index

要给出简要说明，首先需要制作一个与系统词典格式相同的CSV文件。该文件基于

unidic lite

令和,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,令和,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*
㋿,5969,5969,2588,補助記号,一般,*,*,*,*,,㋿,㋿,,㋿,,記号,*,*,*,*,*,*,*,,,,,*,*,*,*,999999
㋿,4786,4786,3992,名詞,固有名詞,一般,*,*,*,レイワ,令和,㋿,レーワ,㋿,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*
夢夢,4786,4786,8205,名詞,固有名詞,一般,*,*,*,レイワ,令和,令和,レーワ,令和,レーワ,固,*,*,*,*,*,*,*,レイワ,レイワ,レイワ,レイワ,"1,0",*,*,*,*

您可以通过复制UniDic源中的条目并编辑字段来执行此操作。然后运行以下命令：

fugashi-build-dict -d dicdir/ -u mydic.dic mydic.csv

dicdir

是您的系统字典的位置，

mydic.csv

是您制作的csv文件。这将创建

mydic.dic

文件，然后您可以通过指定

-u mydic.dic
来与fugashi一起使用该文件。是否有unidic lite字段指南，特别是开头的三个数字e？我认为是针对IPADIC的，前三个数字是左上下文id
和右上下文id
（可以是-1）和成本
。有关于使用哪些数字的指导吗ユーチューブ?你对前三个数字的看法是正确的——在每个MeCab字典中都是相同的，详情请参阅MeCab文档。对于其他数字，花费100通常是可以的，对于其他数字，你需要找到一个类似的术语（词性等）在您使用的字典中。unidic lite基于unidic 2.1.2，带有重音注释。谢谢您的回答。我想再问您一个问题。正如您所说，我执行了命令fugashi build dict-d mymecabdicdir/-u mydic.dic csvfile.csv
，但是，我得到了dictionary.cpp（304）[ifs]没有这样的文件或目录：utf8
错误。将命令开头的fugashi build dict
修改为/usr/local/libexec/mecab/mecab dict index
将不会有任何问题。我还将fugashi版本设置为1.1.0。有问题吗？啊，看起来fugashi build dict有一个错误，无法工作。发布了一个修复程序，很快就会发布。一般来说，不要在评论中跟踪堆栈溢出，这很难跟踪，请在Github上打开一个问题。
fugashi-build-dict -d dicdir/ -u mydic.dic mydic.csv