Nlp 多语言短语手册的数据结构/数据模型

Nlp 多语言短语手册的数据结构/数据模型,nlp,data-modeling,multilingual,linguistics,Nlp,Data Modeling,Multilingual,Linguistics,我们想为特定的语言创建一本多语言词汇手册/词典 区域 现在我在考虑最好的数据结构/数据模型 因为它应该是一本短语手册而不是字典,所以我们希望首先保持数据模型/结构的简单。它应该只用于快速翻译:即用户选择两种语言,键入一个单词并获得翻译。文章和描述部分仅用于显示,不用于搜索 我正在讨论一些具体的案例: 在任何语言中,一个术语可以用几个(1..n)单词来表示 任何术语也可以用另一种语言翻译成几个(1..m)单词 在某些语言中,了解单词的文章可能很重要 对于某些词,描述可能很重要(例如,对于方言词等

我们想为特定的语言创建一本多语言词汇手册/词典 区域

现在我在考虑最好的数据结构/数据模型

因为它应该是一本短语手册而不是字典,所以我们希望首先保持数据模型/结构的简单。它应该只用于快速翻译:即用户选择两种语言,键入一个单词并获得翻译。文章和描述部分仅用于显示,不用于搜索

我正在讨论一些具体的案例:

  • 在任何语言中,一个术语可以用几个(1..n)单词来表示
  • 任何术语也可以用另一种语言翻译成几个(1..m)单词
  • 在某些语言中,了解单词的文章可能很重要
  • 对于某些词,描述可能很重要(例如,对于方言词等)
有一点我不确定:我是不是自己重新发明了创建数据模型的轮子?但我找不到任何解决办法

我刚刚创建了一个json数据模型,我不确定它是否足够好:

[
    {
        wordgroup-id: 1,
        en: [
                {word: 'car', plural: 'cars'},
                {word: 'auto', plural: 'autos'},
                {word: 'vehicle', plural: 'vehicles'},
            ],
        de: [
                {word: 'Auto', article: 'das', description: 'Some explanation eg. when to use this word', plural: 'Autos'},
                {word: 'Fahrzeug', article: 'das', plural: 'Fahrzeuge'}
            ],
        ru: [...],
        ...
    },
    {
        wordgroup-id: 2,
        ...
    },
    ...
]
我还想到了@triplee写的一些“角落”案例。我想用某种冗余来解决它们。只有单词组id和语言中的单词应该是唯一的


我非常感谢您对数据模型初稿的任何反馈。

您需要注释的不仅仅是语法性别。如果您希望能够移植到多种语言,则需要准备特定于语言的子类别。(英语也有,可数与不可数,有生命与无生命等等)你的模型假设单词完全重叠或完全不重叠。但是有些语言有区别,而其他语言则没有区别——许多语言不区分“屋顶”和“天花板”,而许多语言在角落的内侧和外侧有不同的词。你有这样一个角落案例的计划吗(请原谅双关语)?@tripleee谢谢你的评论。我们希望首先保持数据模型/结构的简单,因为它应该是短语手册而不是字典。它应该只用于快速翻译:即用户选择两种语言,键入一个单词,然后获得翻译。文章和描述部分仅用于显示,不用于搜索。关于“角落”案例。我想到了一些多余的东西。只有单词组id和语言中的单词应该是唯一的。@triplee我对草稿做了一些修改,在“单词”中添加了“复数”。但是因为我对这个不太满意。正如我所写的,我可以想象,在我之前还有其他人试图解决同样的问题。我找不到任何文档或论文,可能是因为我的谷歌搜索查询不够好/正确。只添加一个屈折形式也是非常以英语为中心的。德语有四个单数和复数的格,俄语有更多的格,加上aystem的数字更复杂;芬兰语传说中有几十种,加上它是一种粘合语言,所以你有数千种形式,带有一个,没有各种各样的屈折、粒子和后缀,它们可以被固定。