java标记器或分词器,适用于不同的语言
我想知道是否有一些基于java的语言实用程序可以帮助完成以下字符串标记化或分词和噪声消除 因此,对于字符串java标记器或分词器,适用于不同的语言,java,normalization,wordbreaker,Java,Normalization,Wordbreaker,我想知道是否有一些基于java的语言实用程序可以帮助完成以下字符串标记化或分词和噪声消除 因此,对于字符串 Friday's meeting is wonderful 预期结果将是一系列单词 Friday meeting wonderful 删除和的位置 和字符串 I went to the farmer's market 预期结果将是文字 went farmer market 其中I、to、the和被删除了这可能不是最好的解决方案,但您可以使用String类中的replaceAll方
Friday's meeting is wonderful
预期结果将是一系列单词
Friday meeting wonderful
删除和的位置
和字符串
I went to the farmer's market
预期结果将是文字
went farmer market
其中I、to、the和被删除了这可能不是最好的解决方案,但您可以使用String类中的replaceAll方法,将噪声替换为空字符串
例如,类似于:line.replaceAll(“'s”,”) 也许可以看看这个?我还知道有一个字符串标记器类,但如果要用于您的目的,可能会有挑战性
我不知道有哪一个实用程序可以在开箱即用的情况下为您做到这一点,但请看这个-。希望这有点帮助 这个问题没有通用的解决方案,因为(至少)你对“噪音”的概念定义不清。。。而且很可能与其他民族不同 如果我正在实施这一点(我同意你的“噪音”概念),我会:
当然,剥离“噪音”词是剥离与文本正确语义分析相关的信息。(“我击中了球”和“你击中了球”是不同的说法。)我以前玩过。这是一个NLP引擎,在大多数情况下都有足够好的结果。它会给你很大的权力来选择你想要保留哪种类型的单词
这是一个非常困难的问题,这样一个简单的答案很快就会被打破。
他以“奇怪”而闻名。
?