Java 向ApacheTika添加语言配置文件
请任何人解释一下如何做到这一点:-) 我需要为我需要添加的语言获取n-gram文件吗 是否需要创建Java 向ApacheTika添加语言配置文件,java,apache-tika,language-detection,Java,Apache Tika,Language Detection,请任何人解释一下如何做到这一点:-) 我需要为我需要添加的语言获取n-gram文件吗 是否需要创建tika.language.override.properties,添加一些其他lang代码并在类路径上添加lang-code.ngp n-gram文件?在这种情况下,我从哪里得到它?如果只是这个问题,为什么Tika不支持更多的语言 目前,语言检测支持这些语言 da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th tika使用传统的n-g
tika.language.override.properties
,添加一些其他lang代码并在类路径上添加lang-code.ngp n-gram文件?在这种情况下,我从哪里得到它?如果只是这个问题,为什么Tika不支持更多的语言
目前,语言检测支持这些语言
da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th
tika使用传统的n-gram符号
er_ 132232
_de 103517
en_ 82666
et_ 80661
for 65286
_fo 57945
de_ 51382
der 44049
at_ 41915
det 41381
_og 40344
_at 39482
ing 38707
den 36795
og_ 36577
_me 34924
nde 34528
它目前支持这些语言,但是有一些不同的n-gram文件
af bg cs de en fa fr he hr id ja ko ml ne no pl ro sk sq sw te tl uk vi zh-tw ar bn da el es fi gu hi hu it kn mk mr nl pa pt ru so sv ta th tr ur zh-cn
用JSON表示法
{"freq":{"D":9246,"E":2445,"F":2510,"G":3299,"A":6930,"B":3706,"C":2451,"L":2519,"M":3951,"N":3334,"O":2514,"H" ....
看起来,从开始,应该可以添加新的语言配置文件。似乎表明它还没有像可能的那么容易,同时你需要从Nutch的NGramProfile工具开始,调整输出
我建议您尝试使用Nutch工具生成文件,然后查看TIKA-490上的注释,了解如何使用它们的详细信息。TIKA中的语言标识符非常奇怪。它只需要3个字符长字符串的ngram文件。。。已经在Tika中的文件具有类似“cot”、“be_”、三个字符长的Ngram或带有“_”前缀/后缀的两个字符长的Ngram…wierd不是吗?我应该使用NGramProfile工具,但实际上我不能,因为Nuch或Tika中没有NGramProfile。。。它从源代码库中消失了。。。