Php 用阿拉伯语字符解析HTML会产生奇怪的结果，如ÃÃ‘Ãš&引用；_Php_Xml_Html Parsing

Php 用阿拉伯语字符解析HTML会产生奇怪的结果，如ÃÃ‘Ãš&引用；

php xml

Php 用阿拉伯语字符解析HTML会产生奇怪的结果，如ÃÃ‘Ãš&引用；,php,xml,html-parsing,Php,Xml,Html Parsing,我们正试图像这样解析HTML： <li><a class="newsMarquee" href="http://www.lebanonfiles.com/news/617843">مستخدمو "كهرباء لبنان": الاضراب مستمر حتى إقرار موازنة 2013 الخاصة بنا</a></li>

我们正试图像这样解析HTML：

<li><a class="newsMarquee" href="http://www.lebanonfiles.com/news/617843">مستخدمو &quot;كهرباء لبنان&quot;: الاضراب مستمر حتى إقرار موازنة 2013 الخاصة بنا</a></li>
                                                            <li><a class="newsMarquee" href="http://www.lebanonfiles.com/news/617840">اجتماع برئاسة محافظ الجنوب بحث في اوضاع النازحين</a></li>

你的消息来源

http://www.lebanonfiles.com/news/617843

未使用UTF-8字符集；它使用的是Windows-1256（阿拉伯语）*

尝试使用

Windows-1256

作为

*供将来参考：我通过在浏览器中打开URL找到了这一点，然后进入“Encoding”（编码）菜单-这就是浏览器使用的编码。您还可以查看浏览器开发工具的“网络”选项卡，查看页面返回的内容类型。

如Pekka所说，从源代码检查编码

线路

header("Content-Type: text/html; charset=utf-8");

在读取xml文件时没有影响。

这一行只更新网页的输出。

你能显示你正在使用的代码吗？你能显示你的XML文件的标题（特别是使用的内容类型）吗？我编辑了问题，并将代码放在可能的副本中-如果你有XML，为什么要使用loadHTML？我编辑了问题。解析HTML而不是XMLIt不起作用。我尝试了$dom=newdomdocument（'1.0'，'Windows-1256'）；$dom=新的DOMDocument（'1.0'，'utf-8'）；嗯，也许DOMDocument不懂“Windows-1256”。我要做的是使用

file\u get\u contents（）

加载文档，而是使用

iconv（“windows-1256”、“UTF-8”和$content）将其转换为UTF-8，然后使用loadHTML（）加载它。我会尝试一下，然后告诉你发生了什么。我尝试了你说的。仍然没有结果关于重新开放的投票，我唯一的线索是它被暂停关闭，然后被编辑。这通常足以触发审核队列中的投票反应，而不需要其他人审核所有关闭原因，以及编辑是否正确等。
$dom = new DOMDocument('1.0', 'Windows-1256');

header("Content-Type: text/html; charset=utf-8");