Deep learning 将专有名词映射到实体类型的序列翻译

Deep learning 将专有名词映射到实体类型的序列翻译,deep-learning,nlp,machine-translation,Deep Learning,Nlp,Machine Translation,我正在尝试将含有大量专有名词的生物科学文本翻译成一种结构化的生物语言。我可以很容易地用实体类型标记术语(蛋白质、化合物等) 我想知道是否有一种方法可以将名词替换为它们的实体类型(这种方法可以让我在翻译后匹配并添加它们),或者以一种可以增强翻译过程的方式对它们进行注释 例如,将“辛伐他汀诱导的细胞凋亡伴随着小窝蛋白-1表达的特异性诱导”转换为“辛伐他汀增加小窝蛋白-1的rna表达”——辛伐他汀==化合物,小窝蛋白-1==rna 我的期望是,如果我能够预处理输入句子,我将需要更少的训练数据,但前提是

我正在尝试将含有大量专有名词的生物科学文本翻译成一种结构化的生物语言。我可以很容易地用实体类型标记术语(蛋白质、化合物等)

我想知道是否有一种方法可以将名词替换为它们的实体类型(这种方法可以让我在翻译后匹配并添加它们),或者以一种可以增强翻译过程的方式对它们进行注释

例如,将“辛伐他汀诱导的细胞凋亡伴随着小窝蛋白-1表达的特异性诱导”转换为“辛伐他汀增加小窝蛋白-1的rna表达”——辛伐他汀==化合物,小窝蛋白-1==rna


我的期望是,如果我能够预处理输入句子,我将需要更少的训练数据,但前提是我能够转换“诱导凋亡伴随着特定的表达诱导”,以匹配输出中的原始实体(对于每种类型的一个实体来说很容易,但是如果我有多个化合物或RNA会怎么样?)

你的想法似乎是合理的。类似的方法成功地用于翻译使用过的嘈杂文本

有一个名为Python的项目,它包含用于处理生物医学、科学或临床文本的spaCy模型。标准命名实体识别将找不到任何东西

它应该能够检测生物医学实体。您可以通过以下方式安装它:

pip安装spacy scispacyhttps://s3-us-west-2.amazonaws.com/ai2-s2-scispacy/releases/v0.2.3/en_core_sci_sm-0.2.3.tar.gz

如果你使用其他可用的模型,输出可能会更好,也许它们会得到更好的结果。基于此,你可以尝试根据检测到的实体提出一些结果。

我曾考虑使用名词块,但经过更深入的推理,很明显你有一些深层次的问题:如果你只是保留这些蛋白质名称、细菌和特征以及动词、副词等的翻译,最终会出现与英语句法结构不同的难以理解的语言条目。例如:在葡萄牙语中,形容词通常位于名词之后(因此,“辛伐他汀诱导的凋亡”将变为“辛伐他汀诱导的细胞凋亡”).你的目标语言是什么?到目前为止你得到了什么?计划翻译成BEL-一种可计算和形式化的生物结构化语言-有点像一种编程语言。谢谢你的提示。Scispacy看起来很有趣。我不太担心做NER,我更担心的是训练数据需要进行tr将生物文本转换为类似编程的格式(BEL)。这就是为什么我想知道是否有一种占位符方法适用于Seq2Seq翻译模型。我正在跟踪表情符号占位符的作者,以了解他们是如何做到这一点的。这正是我正在寻找的方法。谢谢!
In [1]: import scispacy 
   ...: import spacy 
   ...:  
   ...: nlp = spacy.load("en_core_sci_sm")

In [2]: doc = nlp("Simvastatin-induced apoptosis is accompanied by specific induction of caveolin-1 expression.")                                                                      

In [3]: doc.ents                                                                                                                                                                       
Out[3]: (Simvastatin-induced apoptosis, induction, caveolin-1, expression)