Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/339.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
java标记器或分词器,适用于不同的语言_Java_Normalization_Wordbreaker - Fatal编程技术网

java标记器或分词器,适用于不同的语言

java标记器或分词器,适用于不同的语言,java,normalization,wordbreaker,Java,Normalization,Wordbreaker,我想知道是否有一些基于java的语言实用程序可以帮助完成以下字符串标记化或分词和噪声消除 因此,对于字符串 Friday's meeting is wonderful 预期结果将是一系列单词 Friday meeting wonderful 删除和的位置 和字符串 I went to the farmer's market 预期结果将是文字 went farmer market 其中I、to、the和被删除了这可能不是最好的解决方案,但您可以使用String类中的replaceAll方

我想知道是否有一些基于java的语言实用程序可以帮助完成以下字符串标记化或分词和噪声消除

因此,对于字符串

Friday's meeting is wonderful
预期结果将是一系列单词

Friday meeting wonderful
删除和的位置

和字符串

I went to the farmer's market 
预期结果将是文字

went farmer market

其中I、to、the和被删除了

这可能不是最好的解决方案,但您可以使用String类中的replaceAll方法,将噪声替换为空字符串


例如,类似于:line.replaceAll(“'s”,”)

也许可以看看这个?我还知道有一个字符串标记器类,但如果要用于您的目的,可能会有挑战性


我不知道有哪一个实用程序可以在开箱即用的情况下为您做到这一点,但请看这个-。希望这有点帮助

这个问题没有通用的解决方案,因为(至少)你对“噪音”的概念定义不清。。。而且很可能与其他民族不同

如果我正在实施这一点(我同意你的“噪音”概念),我会:

  • 使用空格和接受的标点符号作为分隔符进行标记化
  • 带引号
  • 带撇号
  • 规范化连字符(可能只是删除连字符)
  • 使用停止字过滤器来去除“噪音”字
  • 简言之,您将不得不编写大量代码来实现这一点


    当然,剥离“噪音”词是剥离与文本正确语义分析相关的信息。(“我击中了球”和“你击中了球”是不同的说法。)

    我以前玩过。这是一个NLP引擎,在大多数情况下都有足够好的结果。它会给你很大的权力来选择你想要保留哪种类型的单词


    这是一个非常困难的问题,这样一个简单的答案很快就会被打破。
    他以“奇怪”而闻名。