Localization 开源机器翻译引擎?

Localization 开源机器翻译引擎?,localization,machine-translation,Localization,Machine Translation,我们正在寻找一个开源的机器翻译引擎,可以纳入我们的本地化工作流程。我们正在考虑以下选项: (C++) (爪哇) (爪哇) 其中,Moses获得了最广泛的社区支持,并已被许多本地化公司和研究人员试用。我们实际上倾向于基于Java的引擎,因为我们的应用程序都是Java的。你们中有人在工作流程中使用Joshua或短语吗。你能和他们分享一下你的经历吗?或者,就其提供的功能和易集成性而言,Moses是否远远领先于这些产品 并且,我们要求发动机支持: 特定领域的培训(即,应为输入数据所属的每个领域维护单独的

我们正在寻找一个开源的机器翻译引擎,可以纳入我们的本地化工作流程。我们正在考虑以下选项:

  • (C++)
  • (爪哇)
  • (爪哇)
  • 其中,Moses获得了最广泛的社区支持,并已被许多本地化公司和研究人员试用。我们实际上倾向于基于Java的引擎,因为我们的应用程序都是Java的。你们中有人在工作流程中使用Joshua或短语吗。你能和他们分享一下你的经历吗?或者,就其提供的功能和易集成性而言,Moses是否远远领先于这些产品

    并且,我们要求发动机支持:

  • 特定领域的培训(即,应为输入数据所属的每个领域维护单独的短语表)
  • 增量训练(即,每次我们希望使用一些新的训练数据时,避免从头开始重新训练模型)
  • 翻译过程的并行化

  • 这个问题最好在摩西的邮件列表上问(摩西)-support@mit.edu),我想。那里有很多人在使用不同类型的系统,所以你会得到一个客观的答案。除此之外,以下是我的意见:

    • 关于Java:机器翻译系统是用哪种语言编写的并不重要。无意冒犯,但您可以放心地认为,即使代码是用您熟悉的语言编写的,如果不深入了解机器翻译,也很难理解。因此,您需要的是接口。Moses的xml rpc工作得很好
    • 关于机器翻译系统:寻找最佳结果,忽略它所用的编程语言。结果如下:。使用MT系统的人对输出感兴趣,而不是对编码偏好感兴趣
    • 关于整个项目:一旦你开始提供机器翻译输出,确保你能很快适应它。机器翻译正在迅速向管道流程转变,在管道流程中,机器翻译系统是核心(而不是唯一)组件。所以关注可维护性。在理想情况下,您可以将任何机器翻译系统连接到您的框架
    以下是关于您的功能请求的一些输入:

    • 特定领域培训:您不需要该功能。通过使用特定于客户的数据培训,您可以获得最佳的机器翻译结果
    • 增量培训:参见
    • 并行化翻译过程:您必须自己实现这一点。请注意,大多数机器翻译软件纯粹是学术性的,永远不会达到1.0的里程碑。如果多线程服务器可用(Moses),这当然会有所帮助,但即使如此,您也需要大量的代码

    希望这有帮助。如果您还有任何问题,请随时给我发邮件。

    很多事情都在进行中,因此我想对这个主题进行更新,并将之前的答案留在那里以记录进展情况

    特定领域的培训:如果您的数据来自不同的来源,并且您需要优化子领域,那么领域适应技术将非常有用。根据我们的经验,没有一个解决方案始终表现最佳,因此您需要尝试尽可能多的方法并比较结果。Moses邮件列表中有一封邮件列出了可能的方法:。下页还概述了当前的研究:

    增量培训:在IWSLT 2013上有一个有趣的演讲:它证明了当前的增量方法(1)使您的系统离线,因此您没有真正的“实时更新”模型(2)通过全面的重新培训表现出色。这个问题似乎还没有解决


    翻译过程的并行化:moses服务器在moses cmd二进制文件上落后。因此,如果你想使用最新的功能,最好从moses cmd开始。此外,社区也没有履行其承诺,永远不会发布1.0版本:-)。事实上,你可以在这里找到最新版本(2.1):

    问:只是好奇,你是否已经开始使用Joshua或Phrasal?如果是这样,是否可以分享您的经验?欢迎来到Stack Overflow。有趣的问题。我在谷歌上搜索了一下,找到了我在问题中插入的URL——如果你自己添加这些URL,你会有一个更好的问题(可能会找到一个比短语的PDF更好的URL)。有人知道为什么一些机器翻译软件的名称与egpyt/israel有关吗?e、 吉萨,摩西,约书亚。有没有适合MT的本地python引擎?