Php 用阿拉伯语字符解析HTML会产生奇怪的结果,如ÃÑÚ&引用;
我们正试图像这样解析HTML:Php 用阿拉伯语字符解析HTML会产生奇怪的结果,如ÃÑÚ&引用;,php,xml,html-parsing,Php,Xml,Html Parsing,我们正试图像这样解析HTML: <li><a class="newsMarquee" href="http://www.lebanonfiles.com/news/617843">مستخدمو "كهرباء لبنان": الاضراب مستمر حتى إقرار موازنة 2013 الخاصة بنا</a></li>
<li><a class="newsMarquee" href="http://www.lebanonfiles.com/news/617843">مستخدمو "كهرباء لبنان": الاضراب مستمر حتى إقرار موازنة 2013 الخاصة بنا</a></li>
<li><a class="newsMarquee" href="http://www.lebanonfiles.com/news/617840">اجتماع برئاسة محافظ الجنوب بحث في اوضاع النازحين</a></li>
你的消息来源
http://www.lebanonfiles.com/news/617843
未使用UTF-8字符集;它使用的是Windows-1256(阿拉伯语)*
尝试使用Windows-1256
作为
*供将来参考:我通过在浏览器中打开URL找到了这一点,然后进入“Encoding”(编码)菜单-这就是浏览器使用的编码。您还可以查看浏览器开发工具的“网络”选项卡,查看页面返回的内容类型。如Pekka所说,从源代码检查编码 线路
header("Content-Type: text/html; charset=utf-8");
在读取xml文件时没有影响。
这一行只更新网页的输出。你能显示你正在使用的代码吗?你能显示你的XML文件的标题(特别是使用的内容类型)吗?我编辑了问题,并将代码放在可能的副本中-如果你有XML,为什么要使用loadHTML?我编辑了问题。解析HTML而不是XMLIt不起作用。我尝试了$dom=newdomdocument('1.0','Windows-1256');$dom=新的DOMDocument('1.0','utf-8');嗯,也许DOMDocument不懂“Windows-1256”。我要做的是使用
file\u get\u contents()
加载文档,而是使用iconv(“windows-1256”、“UTF-8”和$content)将其转换为UTF-8代码>,然后使用loadHTML()
加载它。我会尝试一下,然后告诉你发生了什么。我尝试了你说的。仍然没有结果关于重新开放的投票,我唯一的线索是它被暂停关闭,然后被编辑。这通常足以触发审核队列中的投票反应,而不需要其他人审核所有关闭原因,以及编辑是否正确等。
$dom = new DOMDocument('1.0', 'Windows-1256');
header("Content-Type: text/html; charset=utf-8");