Localization 谷歌翻译错过了我的文件编码

Localization 谷歌翻译错过了我的文件编码,localization,google-translate,google-translator-toolkit,Localization,Google Translate,Google Translator Toolkit,我正在尝试使用google translate对XML文件进行本地化,它有近350K行,但其中一些包含游戏中字体大小和颜色的编码,如下所示: <replacement>&lt;p horizontalalignment="center"&gt;&lt;br/&gt;&lt;image enablescale="false" imagesetpath="00015590.InterD_Jeryoung_3"/&gt;&lt;br/

我正在尝试使用google translate对XML文件进行本地化,它有近350K行,但其中一些包含游戏中字体大小和颜色的编码,如下所示:

<replacement>&lt;p horizontalalignment="center"&gt;&lt;br/&gt;&lt;image enablescale="false" imagesetpath="00015590.InterD_Jeryoung_3"/&gt;&lt;br/&gt;&lt;image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Six_Superior" scalerate="1.5"/&gt;&lt;image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Four_Superior" scalerate="1.5"/&gt;&lt;br/&gt;&lt;image enablescale="true" imagesetpath="00009499.Field_Boss" scalerate="1.4"/&gt;Хмельной лик&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;Уничтожить зараженных насекомых&lt;br/&gt;возле мест обитания их королевы。&lt;br/&gt;</replacement>
<replacement> <p horizontalalignment="center"> <br/> <image enablescale="false" imagesetpath="00015590.InterD_Jeryoung_3"/> <br/> <image enablescale = "true "imagesetpath =" 00015590.Tag_Dungeon_Six_Superior "scalerate =" 1.5 "/> <image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Four_Superior" scalerate="1.5"/> <br/> <image enablescale = "true" imagesetpath = "00009499.Field_Boss" scalerate = "1.4" /> Intoxicated face <br/> <br/> </ p> Destroy infected insects <br/> habitats near their queen. <br/> </ replacement>
p horizontalalignment=“center”br/image enablescale=“false”imagesetpath=“00015590.InterD_jerlong\u 3”/br/image enablescale=“true”imagesetpath=“00015590.Tag”imagesetpath=“00015590.Tag\u Dungeon\u Superior”scalarate=“1.5”/image enablescale=“true”imagesetpath=“00015590.Tag\u Dungeon\u Superior”scalarate=“1.5”/br/image enablescale=“true”imagesetpath=“00009499.Fieldаu Boss”scalarate=“1.4”/br/br/p/
天知道是什么原因,google translate在翻译过程中将代码更改为一些不可接受的编码,如下所示:

<replacement>&lt;p horizontalalignment="center"&gt;&lt;br/&gt;&lt;image enablescale="false" imagesetpath="00015590.InterD_Jeryoung_3"/&gt;&lt;br/&gt;&lt;image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Six_Superior" scalerate="1.5"/&gt;&lt;image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Four_Superior" scalerate="1.5"/&gt;&lt;br/&gt;&lt;image enablescale="true" imagesetpath="00009499.Field_Boss" scalerate="1.4"/&gt;Хмельной лик&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;Уничтожить зараженных насекомых&lt;br/&gt;возле мест обитания их королевы。&lt;br/&gt;</replacement>
<replacement> <p horizontalalignment="center"> <br/> <image enablescale="false" imagesetpath="00015590.InterD_Jeryoung_3"/> <br/> <image enablescale = "true "imagesetpath =" 00015590.Tag_Dungeon_Six_Superior "scalerate =" 1.5 "/> <image enablescale="true" imagesetpath="00015590.Tag_Dungeon_Four_Superior" scalerate="1.5"/> <br/> <image enablescale = "true" imagesetpath = "00009499.Field_Boss" scalerate = "1.4" /> Intoxicated face <br/> <br/> </ p> Destroy infected insects <br/> habitats near their queen. <br/> </ replacement>







毒脸

破坏受感染昆虫在女王附近的栖息地。

有什么方法可以避免这种情况,为什么会发生呢?感谢您在这方面的帮助,谢谢


编辑:我也在寻找一种方法来输入我的文本,并将其以相同的语言输出,只改变编码错误,这样我就可以隔离这些错误,建立一个比较表,然后在实际翻译完成后用它来修复错误,但我看不到选择相同语言作为输入和输出的方法在google translate中,它总是强迫我在输入或输出中选择一个不同的输入或输出,这有点道理,但如果有办法做到这一点,我可能能够解决它。

不要向google translate提供Xml文件,因为据我所知,它不懂Xml

从Xml文件中提取文本

输入要翻译的文本

将文本转换回Xml

您可以简单地将Xml转换为每个Xml元素只有一行的文本文档,这样将更容易将其转换回Xml

更多细节

根据以下信息,您可以上传:

HTML (.HTML)
Microsoft Word (.DOC/.DOCX)
OpenDocument Text (.ODT)
Plain Text (.TXT)
Rich Text (.RTF)
Wikipedia URLs
还有一些额外的东西,比如JSON,所以没有Xml

我看到的最好的方法是将Xml文档转换为这些类型之一(我可能会使用JSON),并通过使用位置(文本文件中的1行是Xml文档中的第一个元素)或id将其转换为其他类型(将xml层次结构中元素的Id或位置添加到JSON元素)


我猜工具包会识别xml中的html标记并将其转义。因此,另一种选择可能是将
转义为
<
转义为
,这正是我在上面作为示例发布的行中所做的,当我翻译整个内容时,它是文本形式的,而不是xml形式的无论我给谷歌翻译什么样的表单,结果都是一样的,它总是以我发布的方式更改代码。也不要传递html编码的文本。只传递纯英语。首先提取英语文本,我要提取俄语文本(翻译成英语)第二,你建议我怎么做?!我的意思是我不能在350000行中手动完成!如果我设法做到了这一点,在翻译完成后,我如何在正确的位置将其重新合并到原始编码格式中?任何想法都值得赞赏。@user3658890-我在回答中添加了XML文档只是一堆行而已继承,没有什么特别的,当我将整个文件复制/粘贴到文本文件(.txt)中时,我对格式一点问题都没有……就像我说的,当我第一次上传文件时,它是“.txt”格式,而不是xml!现在我没有得到“取消转义”部分……我真的不知道这是什么意思,请详细说明。