Localization 开源机器翻译引擎？_Localization_Machine Translation

Localization 开源机器翻译引擎？

localization

Localization 开源机器翻译引擎？,localization,machine-translation,Localization,Machine Translation,我们正在寻找一个开源的机器翻译引擎，可以纳入我们的本地化工作流程。我们正在考虑以下选项：（C++）（爪哇）（爪哇）其中，Moses获得了最广泛的社区支持，并已被许多本地化公司和研究人员试用。我们实际上倾向于基于Java的引擎，因为我们的应用程序都是Java的。你们中有人在工作流程中使用Joshua或短语吗。你能和他们分享一下你的经历吗？或者，就其提供的功能和易集成性而言，Moses是否远远领先于这些产品并且，我们要求发动机支持：特定领域的培训（即，应为输入数据所属的每个领域维护单独的

我们正在寻找一个开源的机器翻译引擎，可以纳入我们的本地化工作流程。我们正在考虑以下选项：

（C++）

（爪哇）

其中，Moses获得了最广泛的社区支持，并已被许多本地化公司和研究人员试用。我们实际上倾向于基于Java的引擎，因为我们的应用程序都是Java的。你们中有人在工作流程中使用Joshua或短语吗。你能和他们分享一下你的经历吗？或者，就其提供的功能和易集成性而言，Moses是否远远领先于这些产品

并且，我们要求发动机支持：

特定领域的培训（即，应为输入数据所属的每个领域维护单独的短语表）

增量训练（即，每次我们希望使用一些新的训练数据时，避免从头开始重新训练模型）

翻译过程的并行化

这个问题最好在摩西的邮件列表上问（摩西）-support@mit.edu)，我想。那里有很多人在使用不同类型的系统，所以你会得到一个客观的答案。除此之外，以下是我的意见：

关于Java：机器翻译系统是用哪种语言编写的并不重要。无意冒犯，但您可以放心地认为，即使代码是用您熟悉的语言编写的，如果不深入了解机器翻译，也很难理解。因此，您需要的是接口。Moses的xml rpc工作得很好
关于机器翻译系统：寻找最佳结果，忽略它所用的编程语言。结果如下：。使用MT系统的人对输出感兴趣，而不是对编码偏好感兴趣
关于整个项目：一旦你开始提供机器翻译输出，确保你能很快适应它。机器翻译正在迅速向管道流程转变，在管道流程中，机器翻译系统是核心（而不是唯一）组件。所以关注可维护性。在理想情况下，您可以将任何机器翻译系统连接到您的框架

以下是关于您的功能请求的一些输入：

特定领域培训：您不需要该功能。通过使用特定于客户的数据培训，您可以获得最佳的机器翻译结果
增量培训：参见
并行化翻译过程：您必须自己实现这一点。请注意，大多数机器翻译软件纯粹是学术性的，永远不会达到1.0的里程碑。如果多线程服务器可用（Moses），这当然会有所帮助，但即使如此，您也需要大量的代码

希望这有帮助。如果您还有任何问题，请随时给我发邮件。

很多事情都在进行中，因此我想对这个主题进行更新，并将之前的答案留在那里以记录进展情况

特定领域的培训：如果您的数据来自不同的来源，并且您需要优化子领域，那么领域适应技术将非常有用。根据我们的经验，没有一个解决方案始终表现最佳，因此您需要尝试尽可能多的方法并比较结果。Moses邮件列表中有一封邮件列出了可能的方法：。下页还概述了当前的研究：

增量培训：在IWSLT 2013上有一个有趣的演讲：它证明了当前的增量方法（1）使您的系统离线，因此您没有真正的“实时更新”模型（2）通过全面的重新培训表现出色。这个问题似乎还没有解决

翻译过程的并行化：moses服务器在moses cmd二进制文件上落后。因此，如果你想使用最新的功能，最好从moses cmd开始。此外，社区也没有履行其承诺，永远不会发布1.0版本：-）。事实上，你可以在这里找到最新版本（2.1）：

问：只是好奇，你是否已经开始使用Joshua或Phrasal？如果是这样，是否可以分享您的经验？欢迎来到Stack Overflow。有趣的问题。我在谷歌上搜索了一下，找到了我在问题中插入的URL——如果你自己添加这些URL，你会有一个更好的问题（可能会找到一个比短语的PDF更好的URL）。有人知道为什么一些机器翻译软件的名称与egpyt/israel有关吗？e、吉萨，摩西，约书亚。有没有适合MT的本地python引擎？