Text 如何拆分日语文本?

Text 如何拆分日语文本?,text,stanford-nlp,opennlp,cjk,kuromoji,Text,Stanford Nlp,Opennlp,Cjk,Kuromoji,使用Java拆分日语文本的最佳方法是什么? 例如,对于以下文本: こんにちは。私の名前はオバマです。私はアメリカに行く。 我需要以下输出: こんにちは 私の名前はオバマです 私はアメリカに行く 有可能使用Kuromoji吗 您可以使用java.text.BreakIterator String TEXT = "こんにちは。私の名前はオバマです。私はアメリカに行く。"; BreakIterator boundary = BreakIterator.getSentenceInstance(Loc

使用Java拆分日语文本的最佳方法是什么? 例如,对于以下文本:

こんにちは。私の名前はオバマです。私はアメリカに行く。
我需要以下输出:

こんにちは
私の名前はオバマです
私はアメリカに行く

有可能使用Kuromoji吗

您可以使用java.text.BreakIterator

String TEXT = "こんにちは。私の名前はオバマです。私はアメリカに行く。";
BreakIterator boundary = BreakIterator.getSentenceInstance(Locale.JAPAN);
boundary.setText(TEXT);
int start = boundary.first();
for (int end = boundary.next();
     end != BreakIterator.DONE;
     start = end, end = boundary.next()) {
     System.out.println(TEXT.substring(start, end));
}
该程序的输出为:

こんにちは。
私の名前はオバマです。
私はアメリカに行く。

您不能使用Kuromoji查找日语句子边界。它可以将一个句子拆分为多个单词。

为了符合他的要求,您还应该在“s”上使用strip()。此解决方案不适用于文本”速い茶色のキツネは怠惰な犬を飛び越えます"