Transliteration MeCab是否可以配置/增强,使我也能阅读英语单词?

Transliteration MeCab是否可以配置/增强,使我也能阅读英语单词?,transliteration,mecab,Transliteration,Mecab,如果我从一个完全日语的句子开始,在MeCab中运行它,我会得到如下结果: $ echo "吾輩は猫である" | mecab 吾輩 名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 猫 名詞,一般,*,*,*,*,猫,ネコ,ネコ で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル EOS 如果我把上一篇专栏文章的所有内容都拼凑在一起,我会得到“ワガハイワネコデアル",

如果我从一个完全日语的句子开始,在MeCab中运行它,我会得到如下结果:

$ echo "吾輩は猫である" | mecab
吾輩 名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ
は  助詞,係助詞,*,*,*,*,は,ハ,ワ
猫  名詞,一般,*,*,*,*,猫,ネコ,ネコ
で  助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
EOS
如果我把上一篇专栏文章的所有内容都拼凑在一起,我会得到“ワガハイワネコデアル", 然后我可以把它输入一个语音合成程序并得到输出。然而,这个程序不能处理英语单词

我把英语扔进MeCab,它设法把它标记化(可能在空格处很幼稚),但没有阅读:

$ echo "I am a cat" | mecab
I   名詞,固有名詞,組織,*,*,*,*
am  名詞,一般,*,*,*,*,*
a   名詞,一般,*,*,*,*,*
cat 名詞,固有名詞,組織,*,*,*,*
EOS
我也想得到这些的读数,即使它们不是完美的,这样我就可以得到一些大致的东西。”アイアムアキャット“

我已经在网络上搜寻解决方案,虽然我确实找到了一堆似乎有足够音译的网站,但我找不到任何方法用我自己的代码来实现。在一些情况下,我给网站作者发了电子邮件,等待了几周后仍然没有得到回复。(这些人的收件箱到底落后了多少?)

我有很多方向可以走,但到目前为止我都走到了死胡同,所以这是我的复合问题:

  • MeCab接受定制词典。有没有一本定制词典能在一定程度上填充英语知识
  • 有没有其他的图书馆或工具,可以把英语和片假名吐出来
  • 是否有一些图书馆或工具可以使用IPA(国际拼音字母表)并吐出片假名?(我知道如何从英语到IPA。)

顺便说一句,我发现软件“VOICEROID”可以说英语文本(很差,但对我来说已经足够了)。这个软件也使用MeCab(或者至少它的DLL和字典文件包含在安装中)它还使用了另一个库Cabocha,据我所知,运行它可以做与MeCab完全相同的事情。它可以为这两个库中的任何一个使用自定义词典来完成这项工作,也可以在它们使用的专有AITalk库中使用代码来完成这项工作。还需要更多的研究,我还没有弄清楚如何运行它们(1)MeCab将空格视为停止词——我正试图找到这方面的来源,但目前失败了。但是试着在,吾 及輩, 你会看到MeCab制作了这两个语素。这就是为什么你的英语会被“解析”。(2)英语发音很疯狂,但我以前用过英语到片假名的转换,比如说。但我认为它们使用字典(日语)工作→英语(反之亦然),不使用任何语音魔法。这是你联系过的网站之一吗?Ben Bullock(来自sljfaq.org)在sljfaq邮件列表上的响应比直接电子邮件更灵敏。@AhmedFasih,他确实是我发邮件的人之一。我很模糊地知道,它可以使用英语到IPA字典,然后使用规则将IPA转换为片假名。然后,对于字典中没有的单词,它有一些额外的回退逻辑。pos中详细介绍了其中的很多内容他的GitHub帐户也有网站的问题,没有任何代码,这让我觉得隐藏源代码是故意的。不管怎么说,还是发到faq网站的邮件列表上吧。我想我们会看到的。否则,我还有一项艰巨的任务要做,那就是挖字典(哦,好吧,他说不。