解析HTML-PHPDomDocumentLoadHTMLUTF-8编码
之前的文章和两篇文章都建议添加一个具有正确编码的资源,即UTF-8 此外,在阅读类似的文章和文章时,建议使用解析HTML-PHPDomDocumentLoadHTMLUTF-8编码,php,parsing,encoding,Php,Parsing,Encoding,之前的文章和两篇文章都建议添加一个具有正确编码的资源,即UTF-8 此外,在阅读类似的文章和文章时,建议使用 (对我来说)现在还不清楚,如果一个页面已经包含了,那么loadHTML可以限制为$output=$dom->loadHTML($output,LIBXML\u HTML\u NODEFDTD)。我想是的。正在解析的页面是HTML 同样,我假设$output=$dom->saveHTML()将同时支持英语和国际语言,如西里尔语、阿拉伯语 问题 如果附加了,W3C验证程序将返回消息考虑向ht
(对我来说)现在还不清楚,如果一个页面已经包含了
,那么loadHTML
可以限制为$output=$dom->loadHTML($output,LIBXML\u HTML\u NODEFDTD)代码>。我想是的。正在解析的页面是HTML
同样,我假设$output=$dom->saveHTML()如果页面编码正确,code>将同时支持英语和国际语言,如西里尔语、阿拉伯语
问题
如果附加了
,W3C验证程序将返回消息考虑向html开始标记添加lang属性以声明此文档的语言。
和开始标记未首先看到doctype。应为
,因为元素附加在HTML标记之前
如果附加了
,验证器同样会投诉Saw
或
是否被使用
如果一个页面已经指定了正确的编码,那么为什么需要使用这两种方法
应该mb_转换_编码($profile,'HTML-ENTITIES,'UTF-8')代码>可以改用吗?如果是,使用它是否安全,或者它是否仍然容易受到XSS或格式错误的HTML的攻击
你说的是HTML代码还是XML代码?@KIKOSoftware-更新了帖子。页面是HTML。在这种情况下,不应该使用
,它是用于XML的。@KIKOSoftware-我也希望如此。但是在阅读https://sharovatov.github.io/posts/2009-11-php-xml.html
,似乎loadHTML
可能有缺陷,应该使用
。这是11年前的一篇老文章。它还会适用吗?您正在用一段XML修改您的代码,因为您认为可能存在一个bug,而当有人向您指出这个bug时,您就有问题了?我会使用
来启动HTML5页面。请参阅:然后可能会遵循W3C验证程序提出的建议。你不必听从建议。