Text 为什么每种语言都需要标记器?

Text 为什么每种语言都需要标记器?,text,lucene,nlp,semantics,Text,Lucene,Nlp,Semantics,在处理文本时,为什么需要专门用于该语言的标记器 用空格标记难道还不够吗?在什么情况下,仅仅使用空白标记是不好的?有些语言,如中文,根本不使用空白来分隔单词 其他语言会使用不同的标点符号——例如,撇号可能是单词的一部分,也可能不是 大小写折叠规则因语言而异 停止词和词干在语言之间是不同的(尽管我猜我在这里偏离了标记器到分析器) Bjerva编辑:此外,许多语言连接复合名词。这是否应该标记为多个标记,不能仅使用空格轻松确定 标记化是从表层文本中识别出具有语言意义的单位 中文:如果您在新加坡只能前往一

在处理文本时,为什么需要专门用于该语言的标记器


用空格标记难道还不够吗?在什么情况下,仅仅使用空白标记是不好的?

有些语言,如中文,根本不使用空白来分隔单词

其他语言会使用不同的标点符号——例如,撇号可能是单词的一部分,也可能不是

大小写折叠规则因语言而异

停止词和词干在语言之间是不同的(尽管我猜我在这里偏离了标记器到分析器)


Bjerva编辑:此外,许多语言连接复合名词。这是否应该标记为多个标记,不能仅使用空格轻松确定

标记化是从表层文本中识别出具有语言意义的单位

中文:如果您在新加坡只能前往一间夜间娱乐场所,佐克必然是您的不二之选。

英语:如果你在新加坡只有一家俱乐部的时间,那么它就是Zouk

印度尼西亚语:如果你想在新加坡找到一个新的工作,那你就得走了

日语:シンガポールで一つしかクラブに行く時間がなかったとしたら、このズークに行くべきです。

韩语:싱가포르에서 클럽 한 군데밖에 갈시간이 없다면, 佐克를 선택하세요.

越南语:Nếu bạn chỉ 科思ờ我是吉安·盖瑟姆ộ塔库ạc bộ ở 新加坡泰晤士报ế佐克

文本来源:

上面并行文本的标记化版本应如下所示:

对于英语,这很简单,因为每个LMU都由空格分隔。然而,在其他语言中,情况可能并非如此。对于大多数罗马化语言,例如印尼语,它们具有相同的空白分隔符,可以轻松识别LMU

然而,有时LMU是两个由空格分隔的“单词”的组合。例如,在上面的越南语句子中,你必须阅读ời_gian(在英语中是时间的意思)作为一个标记,而不是两个标记。将这两个单词分成两个标记会产生没有LMU(例如)或错误的LMU(例如)。因此,适当的越南语标记器将输出
thời_gian
作为一个标记,而不是
thờ我
gian

对于其他一些语言,它们的正字法可能没有空格来分隔“单词”或“标记”,例如汉语、日语,有时还有韩语。在这种情况下,计算机需要标记化来识别LMU。通常LMU上会附加语素/词形变化,因此在自然语言处理中,
形态分析器比标记器更有用。

这个问题也暗示了“单词是什么?”并且可以是非常特定于任务的(甚至忽略多语言性作为一个参数)。以下是我尝试的包含式回答:

(缺少)单词之间的空格

许多语言在单词之间根本没有空格,因此 打破空白的基本分词算法毫无用处 完全这些语言包括主要的东亚语言/脚本, 例如汉语、日语和泰语。古希腊语也是由 古希腊人没有空格。空间(一起)被引入 带有重音符号等)的人。这样 在语言中,分词是一个更重要、更具挑战性的问题 任务(曼尼:1999年,第129页)

化合物

德语复合名词是作为一个词来写的,例如。 “Kartellaufschitsbehördenangesteller”(反托拉斯组织的雇员) 事实上,代词和复合词都是单字——在语音上(参见(MANNI:1999,第120页))。 然而,它们的信息密度很高,人们可能希望 把这样一种化合物分开,或者至少要知道它的内部结构 单词的结构,这就成了一个有限的分词 任务(Ibidem)

还有粘合语言的特例
;介词,所有格代词,…'在“主”字后面附加“;e、 g.欧洲地区的芬兰语、匈牙利语、土耳其语

变体样式和编码

特定语义类型信息的变体编码,例如电话号码、日期等的本地语法:

[…]即使不处理多语言文本,任何 处理来自不同国家或地区的文本的应用程序 根据不同的文体习惯必须做好准备 处理印刷上的差异。特别是一些项目,如 电话号码显然是一种语义类型,但可以出现在许多方面 格式。(曼尼:1999年,第130页)

杂项

一项主要任务是消除句点()和其他非字母(数字)符号的歧义:例如,如果句点是单词的一部分,保持这种方式,这样我们就可以将华盛顿州的缩写Wash与动词Wash的大写形式区分开来(MANNI:1999,第129页)。除此之外,处理缩略语和连字号也不能被视为跨语言标准情况(即使忽略缺少的空格分隔符)

如果要处理多语言缩略词/“cliticons”:

  • L1:他们是我父亲的表亲
  • 法兰西:蒙特勒斯·勒亚尔的经纪人
  • 德语:我的名字叫盖布拉希特。(in的仍然是有效的变体)
由于标记化和句子切分是齐头并进的,所以它们的共同点是相同的(