Nlp 多语言短语手册的数据结构/数据模型_Nlp_Data Modeling_Multilingual_Linguistics

Nlp 多语言短语手册的数据结构/数据模型

nlp

Nlp 多语言短语手册的数据结构/数据模型,nlp,data-modeling,multilingual,linguistics,Nlp,Data Modeling,Multilingual,Linguistics,我们想为特定的语言创建一本多语言词汇手册/词典区域现在我在考虑最好的数据结构/数据模型因为它应该是一本短语手册而不是字典，所以我们希望首先保持数据模型/结构的简单。它应该只用于快速翻译：即用户选择两种语言，键入一个单词并获得翻译。文章和描述部分仅用于显示，不用于搜索我正在讨论一些具体的案例：在任何语言中，一个术语可以用几个（1..n）单词来表示任何术语也可以用另一种语言翻译成几个（1..m）单词在某些语言中，了解单词的文章可能很重要对于某些词，描述可能很重要（例如，对于方言词等

我们想为特定的语言创建一本多语言词汇手册/词典区域

现在我在考虑最好的数据结构/数据模型

因为它应该是一本短语手册而不是字典，所以我们希望首先保持数据模型/结构的简单。它应该只用于快速翻译：即用户选择两种语言，键入一个单词并获得翻译。文章和描述部分仅用于显示，不用于搜索

我正在讨论一些具体的案例：

在任何语言中，一个术语可以用几个（1..n）单词来表示
任何术语也可以用另一种语言翻译成几个（1..m）单词
在某些语言中，了解单词的文章可能很重要
对于某些词，描述可能很重要（例如，对于方言词等）

有一点我不确定：我是不是自己重新发明了创建数据模型的轮子？但我找不到任何解决办法

我刚刚创建了一个json数据模型，我不确定它是否足够好：

[
    {
        wordgroup-id: 1,
        en: [
                {word: 'car', plural: 'cars'},
                {word: 'auto', plural: 'autos'},
                {word: 'vehicle', plural: 'vehicles'},
            ],
        de: [
                {word: 'Auto', article: 'das', description: 'Some explanation eg. when to use this word', plural: 'Autos'},
                {word: 'Fahrzeug', article: 'das', plural: 'Fahrzeuge'}
            ],
        ru: [...],
        ...
    },
    {
        wordgroup-id: 2,
        ...
    },
    ...
]

我还想到了@triplee写的一些“角落”案例。我想用某种冗余来解决它们。只有单词组id和语言中的单词应该是唯一的

我非常感谢您对数据模型初稿的任何反馈。

您需要注释的不仅仅是语法性别。如果您希望能够移植到多种语言，则需要准备特定于语言的子类别。（英语也有，可数与不可数，有生命与无生命等等）你的模型假设单词完全重叠或完全不重叠。但是有些语言有区别，而其他语言则没有区别——许多语言不区分“屋顶”和“天花板”，而许多语言在角落的内侧和外侧有不同的词。你有这样一个角落案例的计划吗（请原谅双关语）？@tripleee谢谢你的评论。我们希望首先保持数据模型/结构的简单，因为它应该是短语手册而不是字典。它应该只用于快速翻译：即用户选择两种语言，键入一个单词，然后获得翻译。文章和描述部分仅用于显示，不用于搜索。关于“角落”案例。我想到了一些多余的东西。只有单词组id和语言中的单词应该是唯一的。@triplee我对草稿做了一些修改，在“单词”中添加了“复数”。但是因为我对这个不太满意。正如我所写的，我可以想象，在我之前还有其他人试图解决同样的问题。我找不到任何文档或论文，可能是因为我的谷歌搜索查询不够好/正确。只添加一个屈折形式也是非常以英语为中心的。德语有四个单数和复数的格，俄语有更多的格，加上aystem的数字更复杂；芬兰语传说中有几十种，加上它是一种粘合语言，所以你有数千种形式，带有一个，没有各种各样的屈折、粒子和后缀，它们可以被固定。