Php 简体中文转繁体中文

Php 简体中文转繁体中文,php,localization,internationalization,cjk,Php,Localization,Internationalization,Cjk,如果网站通过简体中文翻译进行本地化/国际化 是否有可能 自动将文本转换为 高质量的繁体中文 路 如果是这样的话,这将是一个非常高的质量,还是仅仅是一个译者调整的良好起点 是否有开源工具(最好是PHP)可以使用 这样的转换? 这种转换方式比另一种更好(简化->传统,或反之亦然) 我对任何形式的汉语都一无所知,但通过查看中的示例,我倾向于认为自动转换是可能的,因为许多短语似乎使用相同数量的字符,甚至一些相同的字符 我使用一个多字节ord()函数运行,我看不到任何模式允许在不使用(巨大的?)查找转换

如果网站通过简体中文翻译进行本地化/国际化

  • 是否有可能 自动将文本转换为 高质量的繁体中文 路
  • 如果是这样的话,这将是一个非常高的质量,还是仅仅是一个译者调整的良好起点
  • 是否有开源工具(最好是PHP)可以使用 这样的转换?
  • 这种转换方式比另一种更好(简化->传统,或反之亦然)
我对任何形式的汉语都一无所知,但通过查看中的示例,我倾向于认为自动转换是可能的,因为许多短语似乎使用相同数量的字符,甚至一些相同的字符

我使用一个多字节
ord()
函数运行,我看不到任何模式允许在不使用(巨大的?)查找转换表的情况下进行自动转换

Traditional Chinese 漢字
Simplified Chinese  汉字

function mb_ord($string)
{
    if (is_array($result = unpack('N', iconv('UTF-8', 'UCS-4BE', $string))) === true)
    {
        return $result[1];
    }

    return false;
}

var_dump(mb_ord('漢'), mb_ord('字')); // 28450, 23383
var_dump(mb_ord('汉'), mb_ord('字')); // 27721, 23383
这可能是开始构建LUTT的好地方:

我得出的结论似乎(在某种程度上)与我的推理一致:

有几个国家 中文是主要的书面语言。 它们之间的主要区别是 无论他们使用简化的还是 繁体字,但是有 区域差异也很小(在 词汇等)


简短回答:不,不可靠+高质量。我不会推荐自动化工具,除非市场对你来说不是那么重要,而且你可能会冒着某些公众尴尬的风险。你可能会发现一些本地化公司更乐意从高质量的简体中文翻译开始,并将其改为繁体中文,但你也可能会发现许多公司更喜欢从英文源开始

更详细的回答:在某些情况下,只有字形不同,并且它们具有不同的unicode代码点。但中国大陆和台湾/香港之间也存在一些习惯用语和词汇上的差异,如果不加以处理,你的素质将受到影响。技术术语的问题可能更多,也可能更少,这取决于术语普遍使用的时代。这些问题中的一些可能会被自动化工具所捕获,但并非全部。当然,如果你走的是自动转换的路线,确保你得到了每个目标市场QA团队的认可

此外,还存在社会政治问题。例如,你可以在台湾使用诸如“中华民国”之类的术语,但如果它出现在你的简体中文版本(有时是英文版本)中,这将极大地激怒中国政府;如果您在中国有实际的子公司或合作伙伴,则员工可能仅基于颠覆性术语而被捕。(这并非中国独有;巴基斯坦/印度和土耳其也有类似的问题)。如果把“台湾”称为“国家”,你也会遇到类似的麻烦

能否以高质量的方式可靠地将文本自动转换为繁体中文

其他答案都集中在困难上,但这些都被夸大了。有一点是,大部分的角色都是完全相同的。第二件事是“简化”形式正是:繁体字的简化形式。这意味着繁体字和简体字之间存在着一对一的关系

如果是这样的话,这将是一个非常高的质量,还是仅仅是一个译者调整的良好起点

有些事情需要调整

是否有开源工具(最好是PHP)来进行这种转换

我不知道,尽管你可能想看看谷歌翻译api

这种转换方式比另一种更好(简化->传统,或反之亦然)

简化字母表中有几个字符失去了区分。例如麵(面粉)被简化为与相同的字符面(面部、侧面)。由于这个原因,传统->简化会稍微更准确一些

我还想指出,繁体字并非仅在台湾使用(在香港甚至大陆都可以找到)



我能够找到并找到。但需要创建一个下载帐户。我本人从未使用过该网站,因此我无法对此作出担保。

作为一名香港本地人,我同意@JasonTrue:不要这样做。你可能在台湾和香港冒险激怒你的潜在用户。


但是,如果你仍然坚持这样做,看看;是一个实现(注意许可证)。

从根本上说,简体中文单词有很多缺失的含义。世界上没有一种编程语言能够准确地将简体中文转换成繁体中文。您只会给您的目标受众(香港、澳门、台湾)造成混乱

从简体中文到繁体中文翻译失败的一个完美例子是“单词”后". 在简化形式中,它有两种含义,“behind”或“queen”。但是,当您尝试将其转换回繁体中文时,可以有两种以上的字符选择:後 "在“或”后面后 “女王”。我遇到的一个有趣的例子是一位翻译,他把皇后大道" 皇后大道至“皇後大道“,字面意思是皇后大道后面


除非你的翻译算法非常聪明,否则它肯定会产生错误。因此,你最好雇佣一位精通两种中文的优秀翻译。

简短回答:是的。而且很简单。你可以先将其从UTF-8转换为BIG5,然后有很多工具可供你将BIG5转换为GBK,然后再转换GBK to UTF-8。

谢谢,这很有意义。如果一个人想从自动翻译开始,怎么能通过编程实现呢?因为我有国际化的经验