Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/267.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
PHP阅读“;Unicode“;微软Word文档_Php_Unicode_Ms Word_Unicode String - Fatal编程技术网

PHP阅读“;Unicode“;微软Word文档

PHP阅读“;Unicode“;微软Word文档,php,unicode,ms-word,unicode-string,Php,Unicode,Ms Word,Unicode String,我正在试着读一些PHP的微软Word文档,它是Unicode的,一些东西像希伯来语或阿拉伯语。但它以二进制读取,并转换为一些非场景字符。我在谷歌上搜索了一些示例代码,但其中没有一个工作正常,您是否有使用Unicode文档(如阿拉伯语和希伯来语)的经验?谢谢PHP的缺点之一是(至少直到最近)对Unicode一无所知。通常,您只需忽略您正在阅读的是Unicode这一事实,并希望您的文档最终所在的web浏览器知道如何处理Unicode即可。PHP不会破坏任何东西,它只是不在乎 根据您尝试执行的操作,P

我正在试着读一些PHP的微软Word文档,它是Unicode的,一些东西像希伯来语或阿拉伯语。但它以二进制读取,并转换为一些非场景字符。我在谷歌上搜索了一些示例代码,但其中没有一个工作正常,您是否有使用Unicode文档(如阿拉伯语和希伯来语)的经验?谢谢

PHP的缺点之一是(至少直到最近)对Unicode一无所知。通常,您只需忽略您正在阅读的是Unicode这一事实,并希望您的文档最终所在的web浏览器知道如何处理Unicode即可。PHP不会破坏任何东西,它只是不在乎

根据您尝试执行的操作,PHP中添加了一些改进Unicode处理的功能。其中包括处理多字节字符串的
mb
字符串函数


您还需要了解文本在Word文档中的编码方式。Unicode支持多种格式,最流行和最紧凑的格式是
UTF-8
,但也有
UTF-16
UTF-32

您是否将Word文档解析为Word文档?这里描述了阿拉伯文unicode块:如果您有一个像样的unicode实现,我不明白为什么处理阿拉伯文或希伯来文会与其他字符范围有任何不同。您是从头开始编写自己的MS Word实现的吗?@Y sangkok,是的,我解析了它,但无法通过。@ePezhman scratch,n:base,一开始…最紧凑很大程度上取决于你有什么内容,UTF-8最紧凑并不是一个普遍的事实;仅适用于大部分为ASCII的文本。然而,UTF-32总是最不紧凑的。@Fabian感谢您的回答,您认为可以将二进制文件转换为UTF-8吗?