Java 标记化和模式匹配在中文中是如何工作的。?

Java 标记化和模式匹配在中文中是如何工作的。?,java,utf-8,internationalization,locale,cjk,Java,Utf 8,Internationalization,Locale,Cjk,这个问题涉及计算机和中文知识。 我有中文查询,我有一个单独的中文短语列表,我需要能够找到这些查询中有任何这些短语 在英语中,这是一项非常简单的任务。我一点也不懂中文,它的语义,语法规则等等。如果在这个论坛上也懂中文的人能帮我一些基本的理解,以及如何对中文进行模式匹配 我有一个基本的感觉,在汉语中,一个单位(中间没有空格)实际上意味着不止一个单词(这是正确的吗?)。那么,对于如何将多个单词组合成一个整体,有什么规则吗。这是令人困惑的,因为中国文字中有空格,但即使没有空格的单位也有多个单词 任何从计

这个问题涉及计算机和中文知识。 我有中文查询,我有一个单独的中文短语列表,我需要能够找到这些查询中有任何这些短语

在英语中,这是一项非常简单的任务。我一点也不懂中文,它的语义,语法规则等等。如果在这个论坛上也懂中文的人能帮我一些基本的理解,以及如何对中文进行模式匹配

我有一个基本的感觉,在汉语中,一个单位(中间没有空格)实际上意味着不止一个单词(这是正确的吗?)。那么,对于如何将多个单词组合成一个整体,有什么规则吗。这是令人困惑的,因为中国文字中有空格,但即使没有空格的单位也有多个单词

任何从计算角度、模式匹配等方面解释中文的链接都是非常有用的

我有一个基本的感觉,在汉语中,一个单位(中间没有空格)实际上意味着不止一个单词(这是正确的吗?)

中文中很少使用空格,例如:

,又譯為遞迴,在数学与计算机科学中,是指在函数的定义中使用函数自身的方法。递归一词还较常用于描述以自相似方法重复事物的过程。例如,当两面镜子相互之间近似平行时,镜中嵌套的图像是以无限递归的形式出现的。

你会注意到看起来是空格的东西实际上只是中国的标点符号,它比通常有更多的填充

那么,对于如何将多个单词组合成一个整体,有什么规则吗。这是令人困惑的,因为中国文字中有空格,但即使没有空格的单位也有多个单词

这样想吧:一个汉字和一个英语单词非常非常近似。通常情况下,两个或多个字符需要组合成一个单词,每个单独的字符可能意味着完全不同的内容,具体取决于上下文

为了有意义地标记中文文本,你必须考虑到这一点来分割单词

看,斯坦福NLP小组的。肯·伦德的书可能值得一看。
基本语序为主语-动词-宾语,但也可参见《我不明白》中的“主题突出”:空格仅与标点符号一起使用??一个汉字不等于一个英语单词;许多单词是由两个字组成的,如“国际号”、“国际号”。此外,一个汉字的意思可能会因周围的汉字而有所不同(视上下文而定)。我回复的注释已经不存在了。@p2pnode除了标点符号之外,你在中文文本中通常找不到空格,我想这就是该注释的意思。不幸的是它被删除了。在任何情况下,我可能会针对这个主题的研究论文,因为它是。。。复杂,但母语为汉语的人会有更有用的输入:)看一看这个问题:也许在你编辑之前,把我在评论中说的内容包括在内;在编辑之前是错误的。另外,如果你知道的话。基本语法规则是什么样的?主语动词宾语???@DaveNewton这是否意味着它现在仍然是错的?如果是,有什么问题吗?@p2pnode对于与编程无关的问题,您最好的选择是网络,而不是网络。@NullUserExceptionఠ_ఠ 国际海事组织,在补充了已经说过的话之后,现在看来是合理的。