Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/348.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java Apache Tika无法检测短句中的语言。为什么?_Java_Nlp_Apache Tika - Fatal编程技术网

Java Apache Tika无法检测短句中的语言。为什么?

Java Apache Tika无法检测短句中的语言。为什么?,java,nlp,apache-tika,Java,Nlp,Apache Tika,我试着在短短语上检测语言,但很惊讶检测结果是错误的 LanguageDetector detector = new OptimaizeLangDetector(); try { detector.loadModels(); } catch (IOException e) { LOG.error(e.getMessage(), e); throw new ExceptionInInitializerError(e);

我试着在短短语上检测语言,但很惊讶检测结果是错误的

    LanguageDetector detector = new OptimaizeLangDetector();
    try {
        detector.loadModels();
    } catch (IOException e) {
        LOG.error(e.getMessage(), e);
        throw new ExceptionInInitializerError(e);
    }
    LanguageResult languageResult = detector.detect("Hello, my friend!")

languageResult包含概率为“中等”的挪威语。为什么?我想应该是英语。较长的短语似乎可以被正确地检测到。这是否意味着不应在短文本中使用Apache Tika?

这在短文本中不起作用。正如文献中所说:

使用的LanguageDetector API的实现

我们将回顾一下github,并检查他们在短文本方面存在的一些问题

当要分析的输入文本为空时,此软件无法正常工作 矮小的,不干净的。比如推特


从他们面临的挑战来看

这在短文本中是行不通的。正如文献中所说:

使用的LanguageDetector API的实现

我们将回顾一下github,并检查他们在短文本方面存在的一些问题

当要分析的输入文本为空时,此软件无法正常工作 矮小的,不干净的。比如推特

从他们的挑战领域