Nlp 神经机器翻译中如何处理姓名/未知词?

Nlp 神经机器翻译中如何处理姓名/未知词?,nlp,machine-translation,natural-language-processing,Nlp,Machine Translation,Natural Language Processing,有谁能解释一下在神经机器翻译中处理未知单词的最佳方法,而不是将其删除,并了解google translate在处理任意两种语言之间的句子时是如何处理名称的 我真的很感谢你的回复…谢谢 当前的NMT模型不适用于传统意义上的单词,而是适用于所谓的子单词。使用统计模型将文本分割为子词,以确保经常使用的词或字符串保持在一起,不太频繁的词被分割,最终可以分割为单个字符。这样,就没有词汇表外的单词了。源语言和目标语言的分割是相同的,因此模型很容易学习复制 目前,最常用的方法是和,它们都可以通过pip获得,并

有谁能解释一下在神经机器翻译中处理未知单词的最佳方法,而不是将其删除,并了解google translate在处理任意两种语言之间的句子时是如何处理名称的


我真的很感谢你的回复…谢谢

当前的NMT模型不适用于传统意义上的单词,而是适用于所谓的子单词。使用统计模型将文本分割为子词,以确保经常使用的词或字符串保持在一起,不太频繁的词被分割,最终可以分割为单个字符。这样,就没有词汇表外的单词了。源语言和目标语言的分割是相同的,因此模型很容易学习复制

目前,最常用的方法是和,它们都可以通过
pip
获得,并且易于使用


谷歌声称使用了一种类似的称为WordPiece的技术,然而,他们可能已经切换到了2018年由谷歌公开的SentencePiece。

谢谢!能给我一个清晰的句子代码示例吗?在上有很多很好的教程。谢谢你的有效解决方案:)