Character encoding C/C+中的HTML解码+;

Character encoding C/C+中的HTML解码+;,character-encoding,libcurl,hebrew,html-encode,Character Encoding,Libcurl,Hebrew,Html Encode,我使用libcurl获取HTML页面 我对希伯来文字有一些问题 例如:סלקום 变得胡言乱语 我怎样才能得到希伯来文字符而不是胡言乱语 我需要一些HTML解码器吗 libcurl是否支持这种操作 libiconv是否支持这种操作 谢谢你的帮助 谢谢编辑:好的,您看到的是UTF-8数据被解码为Windows-1252(因此数字字符引用是一种误导)。下面是一个Python演示: >>> u = ''.join(map(un

我使用libcurl获取HTML页面

我对希伯来文字有一些问题

例如:
סלקום
变得胡言乱语

我怎样才能得到希伯来文字符而不是胡言乱语

我需要一些HTML解码器吗

libcurl是否支持这种操作

libiconv是否支持这种操作

谢谢你的帮助

谢谢编辑:好的,您看到的是UTF-8数据被解码为Windows-1252(因此数字字符引用是一种误导)。下面是一个Python演示:

>>> u = ''.join(map(unichr, [1505, 1500, 1511, 1493, 1501]))
>>> s = u.encode('utf-8')
>>> print s.decode('cp1255', 'replace')
׳¡׳�׳§׳•׳�
此问题的解决方案取决于显示输出的环境。仅仅输出接收到的字节并期望它们被解释为字符,就会导致这样的问题

HTML文档通常包含一个标题标记,如
,用于向浏览器指示其编码。web服务器提供的文档包含一个HTTP头,如
内容类型:text/html;字符集=utf-8

您应该向libcurl询问
内容类型
HTTP头以了解文档的编码,然后使用iconv将其转换为系统编码。在您的情况下,代码页是1255,这取决于用户的系统,因此您应该查找相应的函数来检测它


(阅读本网站上的标签,了解更多信息。)

您在哪个系统上运行该功能?你支持上面的希伯来文字符吗?我得到的字符像:?我需要处理这些角色。还有像这样的角色:!这正是我需要的。