Encoding .编码国际字符(希伯来语、泰语、俄语、汉语等)

Encoding .编码国际字符(希伯来语、泰语、俄语、汉语等),encoding,utf-8,wget,hebrew,iconv,Encoding,Utf 8,Wget,Hebrew,Iconv,由wget存档的国际html文件 应该包含这样的字符 (例如希伯来语和泰语:) הם 和ยคน 相反,它们是这样保存的: 和和§§ 如何正确显示这些内容 iconv filename.html iconv:位置1254处的非法输入序列 解决了:没有什么问题。 只是我没有注意到默认的php.ini在http头中设置了字符集,但是 要使用各种字符集,如meta http equiv=“Content Type”Content=“text/html;charset=windows-874”,需要设置

由wget存档的国际html文件 应该包含这样的字符

(例如希伯来语和泰语:) הםยคน

相反,它们是这样保存的: 和§§

如何正确显示这些内容

iconv filename.html iconv:位置1254处的非法输入序列

解决了:没有什么问题。 只是我没有注意到默认的php.ini在http头中设置了字符集,但是 要使用各种字符集,如meta http equiv=“Content Type”Content=“text/html;charset=windows-874”,需要设置:default\u charset=“empty” ..

页面不是“这样保存的”,无论您使用什么方式查看文件,都只是错误地解释了编码。要知道文件的编码方式,您应该在下载过程中注意HTTP
内容类型
头;现在已经过去了。
如果文档中有一个HTML元标记,那么您唯一的机会就是解析
中的等效HTML元标记

否则,您只能猜测文档的编码

有关所需的更多背景知识,请参阅