Php 将文字(印度语-古吉拉特语)从word文档复制到网页文字区域

Php 将文字(印度语-古吉拉特语)从word文档复制到网页文字区域,php,unicode,unicode-string,Php,Unicode,Unicode String,我正在开发一个印度语(古吉拉特语)网站 我的问题如下: 我的客户希望他们能够从word文档复制古吉拉特语文本并粘贴到文本区域 但当我从word文档复制文本并粘贴到文本区域时,它会转换为英文字母 上面是我正在使用的字体链接 我可以为您提供演示代码,以便您对其进行一些操作。您应该将TextArea的字体设置为Gopika <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Conte

我正在开发一个印度语(古吉拉特语)网站

我的问题如下:

我的客户希望他们能够从word文档复制古吉拉特语文本并粘贴到文本区域

但当我从word文档复制文本并粘贴到文本区域时,它会转换为英文字母

上面是我正在使用的字体链接


我可以为您提供演示代码,以便您对其进行一些操作。

您应该将TextArea的字体设置为Gopika

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>Gopika Test</title>
<style>
textarea {
    font-family:"Gopika";
}
</style>
</head>
<body>
<form><textarea>asdasdioasd</textarea></form>
</body>
</html>

戈皮卡试验
文本区{
字体系列:“Gopika”;
}
asdasdioasd

无法复制,我可以粘贴ગુજરાતી 没有任何明显问题的文本区域。问题可能是你实际上使用的不是印度字符,而是英语字符,或者更可能是这个词在某种程度上欺骗了你

我建议您将文本区域的代码粘贴到这里,并可能上载word文件或类似文件的示例(我不会理解),以便我们可以尝试复制这些问题

更新:

第一个测试场景,我粘贴了一些维基百科中包含印度语的文本,这些文本在文本区域和发布后都正确显示。我假设您正在对自己进行一些测试,以了解我在图像上看到的情况:

第二个测试场景,我从docx文件复制了文本,当粘贴到文本区域时,它显示为英文字母。为什么?因为这些不是印度字符,它们是看起来像印度字符的英语字符

这意味着,即使它们看起来像印度人,但它们下面仍然是相同的ascii码,当翻译为textarea时,它们失去了“外观”。你应该试试真正的印度文字

例如,根据您使用的字体,字母“a”看起来会有所不同,事实上我们关心的可能是一只鸟、一棵树、一个印度字符或一辆摩托车,但如果复制并粘贴到只允许纯文本而不允许字体基础文本的地方,我们仍然会看到字母“a”,因为它始终是ASCII字符97。要亲自测试这一点,请转到word文档并按键ALT+97(然后放开ALT)。这样,您实际上可以输入字母“a”,不管它看起来像与否

希望你能理解。 真正的印度、中国或其他任何字体都能正常工作,除非您将textarea的字体设置为特定的字体-,否则看起来不会-

如果这不能说服你,如果你使用Cujarati字体,那么所有不是英语的字符,比如说一条实际上引用英语的评论仍然会用Cujarati字体显示,因此毫无意义

最后,打开字符映射,查看Cujarati映射,然后查看任何其他字体的映射。然后你可以看到角色实际上是一样的。
但我放弃了说服那些不想看的人。

这是我正在使用的Gopika字体的文档文件。这是我的文本区域的链接。阅读我对VOX回答的最后评论,这是我对这个问题的最后一句话,它让我为试图帮助你感到内疚。很抱歉,如果我的答案不是你需要的,祝你的项目好运。正如Vox建议的那样,你可以使用支持多种字体的富编辑器或所见即所得,那么粘贴应该很简单。我建议使用NicEdit,因为在上有一个演示,请确保您将新字体添加到此编辑器中,否则它将无法显示“印第安”字符。好的编辑器thx。。我不知道该选择哪一个作为被接受的答案。。这两个领域都很好……只要我支持,我不在乎阿维纳什,就选他吧;)我已经用你的代码创建了一个HTML文件,但它只显示英文字母,但应该显示古吉拉特邦的字母。让我知道你正在测试的操作系统和浏览器。Windows 7和FF 3.6.4也在IE8、Safari和chrome中工作。只有FF 3.6有问题。4@Avinash这听起来更像是FF如何实现复制/粘贴的问题。我的理论是,这种字体不包含印度字符,只包含形状类似印度字符的英文ASCII字母。