Character encoding C/C+中的HTML解码+；_Character Encoding_Libcurl_Hebrew_Html Encode

Character encoding C/C+中的HTML解码+；

character-encoding

Character encoding C/C+中的HTML解码+；,character-encoding,libcurl,hebrew,html-encode,Character Encoding,Libcurl,Hebrew,Html Encode,我使用libcurl获取HTML页面我对希伯来文字有一些问题例如：סלקום 变得胡言乱语我怎样才能得到希伯来文字符而不是胡言乱语我需要一些HTML解码器吗 libcurl是否支持这种操作 libiconv是否支持这种操作谢谢你的帮助谢谢编辑：好的，您看到的是UTF-8数据被解码为Windows-1252（因此数字字符引用是一种误导）。下面是一个Python演示： >>> u = ''.join(map(un

我使用libcurl获取HTML页面

我对希伯来文字有一些问题

例如：

סלקום
变得胡言乱语
我怎样才能得到希伯来文字符而不是胡言乱语
我需要一些HTML解码器吗
libcurl是否支持这种操作
libiconv是否支持这种操作
谢谢你的帮助
谢谢编辑：好的，您看到的是UTF-8数据被解码为Windows-1252（因此数字字符引用是一种误导）。下面是一个Python演示：
>>> u = ''.join(map(unichr, [1505, 1500, 1511, 1493, 1501]))
>>> s = u.encode('utf-8')
>>> print s.decode('cp1255', 'replace')
׳¡׳�׳§׳•׳�

此问题的解决方案取决于显示输出的环境。仅仅输出接收到的字节并期望它们被解释为字符，就会导致这样的问题
HTML文档通常包含一个标题标记，如
，用于向浏览器指示其编码。web服务器提供的文档包含一个HTTP头，如内容类型：text/html；字符集=utf-8

您应该向libcurl询问内容类型
HTTP头以了解文档的编码，然后使用iconv将其转换为系统编码。在您的情况下，代码页是1255，这取决于用户的系统，因此您应该查找相应的函数来检测它
（阅读本网站上的标签，了解更多信息。）
您在哪个系统上运行该功能？你支持上面的希伯来文字符吗？我得到的字符像：？我需要处理这些角色。还有像这样的角色：！这正是我需要的。