Encoding 理论:";词汇编码;

Encoding 理论:";词汇编码;,encoding,theory,nlp,linguistics,Encoding,Theory,Nlp,Linguistics,我之所以使用“词汇编码”一词,是因为我没有更好的编码。 与字母相比,单词可以说是基本的交流单位。Unicode尝试为所有已知字母表中的每个字母指定一个数值。一种语言的字母是另一种语言的符号。Unicode 5.1目前为这些图示符分配了100000多个值。在现代英语中使用的大约180000个单词中,据说有大约2000个单词的词汇量,你应该能够进行一般性的交谈。“词汇编码”将对每个单词而不是每个字母进行编码,并将它们封装在一个句子中 // An simplified example of a "Le

我之所以使用“词汇编码”一词,是因为我没有更好的编码。

与字母相比,单词可以说是基本的交流单位。Unicode尝试为所有已知字母表中的每个字母指定一个数值。一种语言的字母是另一种语言的符号。Unicode 5.1目前为这些图示符分配了100000多个值。在现代英语中使用的大约180000个单词中,据说有大约2000个单词的词汇量,你应该能够进行一般性的交谈。“词汇编码”将对每个单词而不是每个字母进行编码,并将它们封装在一个句子中

// An simplified example of a "Lexical Encoding"
String sentence = "How are you today?";
int[] sentence = { 93, 22, 14, 330, QUERY };
在本例中,字符串中的每个标记都被编码为整数。这里的编码方案只是根据单词使用的一般统计排名分配一个int值,并为问号分配一个常量

最终,一个词既有拼写也有意义。任何“词汇编码”都将保留整个句子的意义和意图,而不是特定于语言。一个英语句子将被编码成一个句子,然后可以被重组成任何一种具有结构化句法形式和语法结构的语言

“词汇编码”技术的其他例子有哪些


如果您对单词使用统计数据的来源感兴趣:

这个问题对语言学的影响大于编程,但对于高度合成的语言(具有由多个组合语素组成的单词),尝试对所有可能的单词进行“编号”可能是一个非常复杂的问题,而像英语这样的语言至少在某种程度上是孤立的,或者像汉语这样的高度分析性的语言

也就是说,在某些语言中,单词可能不容易根据其组成符号进行分解和计数


这篇维基百科上的文章可能有助于解释这个问题。

为自己发明一个是很容易的。将每个单词转换成一个规范的ByTestStream(例如,小写分解的UCS32),然后将其散列为一个整数。32位可能就足够了,但如果不是,那么64位肯定就足够了


在TIN给你一个可怕的答案之前,考虑Unicode的目的是简单地为每个符号指定一个唯一的标识符。不是对它们进行排序或分组,而是将它们映射到每个人都同意的唯一标识符上。

该系统如何处理名词的复数化或动词的变位?这些都有自己的“Unicode”值吗?

作为一个翻译方案,如果没有更多的工作,这可能是行不通的。你可能会认为你可以给每个单词分配一个数字,然后机械地将其翻译成另一种语言。事实上,语言存在多个单词拼写相同的问题:“风把她的头发吹回来了”与“给你的手表上发条”


对于传输文本,如果您假定每种语言都有一个字母表,那么它会很好地工作,尽管我想知道与使用可变长度字典(如ZIP使用)相比,您在传输文本时会得到什么好处。

这是该思想的几个主要问题。在大多数语言中,一个词的意义以及与之相关的词的意义变化非常迅速

你刚给一个词分配了一个数字,这个词的意思就会改变。例如,“gay”一词过去只表示“快乐”或“快乐”,但现在主要用于表示同性恋。另一个例子是词素“谢谢”,它最初来自德语“danke”,这只是一个词。还有一个例子是“再见”,它是“上帝保佑你”的缩写

另一个问题是,即使在任何时间点对一个单词进行快照,该单词的含义和用法也会引起争议,即使是在同一个省份内。在编写词典时,负责一个单词的学者争论并不少见

简言之,您将无法使用现有的语言来实现这一点。你必须考虑发明一种你自己的语言,为了这个目的,或者使用一种已经被发明的相当静态的语言,例如中间语言或世界语。然而,即使是这样,对于在标准词汇中定义静态语素来说也不是完美的

即使在汉字中,汉字和词义之间存在着粗略的映射关系,但这仍然是行不通的。许多字符根据上下文以及它们前面或后面的字符改变其含义

当您尝试在不同语言之间进行翻译时,问题最严重。英语中可能有一个词可以在各种情况下使用,但不能直接在另一种语言中使用。这方面的一个例子是“免费”。在西班牙语中,可以使用“libre”来表示“free”,也可以使用“gratis”来表示“free”(啤酒中的“free”)(用错误的词代替“free”看起来很有趣)

还有一些更难理解的词,比如韩语中的“美丽”一词;当说一个女孩漂亮时,会有几个替代者;但是当你说食物漂亮时,除非你是说食物好看,否则还有其他几种完全不同的候选食物

归根结底,虽然我们在英语中只使用了大约20万个单词,但我们的词汇量在某些方面实际上更大,因为我们给同一个单词赋予了许多不同的含义。同样的问题也适用于世界语和中间语,以及所有其他对对话有意义的语言。人类的语言不是一台定义明确、润滑良好的机器。因此,尽管你可以创建这样一个词典,其中每个“单词”都有自己独特的含义,但使用当前技术的机器将任何人类语言翻译成你的特殊标准词典将是非常困难的,几乎是不可能的。

John: 1 went: 1 to: 1 the: 2 store: 1 he: 1 bought: 1 bread: 2