Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/295.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
解析HTML-PHPDomDocumentLoadHTMLUTF-8编码_Php_Parsing_Encoding - Fatal编程技术网

解析HTML-PHPDomDocumentLoadHTMLUTF-8编码

解析HTML-PHPDomDocumentLoadHTMLUTF-8编码,php,parsing,encoding,Php,Parsing,Encoding,之前的文章和两篇文章都建议添加一个具有正确编码的资源,即UTF-8 此外,在阅读类似的文章和文章时,建议使用 (对我来说)现在还不清楚,如果一个页面已经包含了,那么loadHTML可以限制为$output=$dom->loadHTML($output,LIBXML\u HTML\u NODEFDTD)。我想是的。正在解析的页面是HTML 同样,我假设$output=$dom->saveHTML()将同时支持英语和国际语言,如西里尔语、阿拉伯语 问题 如果附加了,W3C验证程序将返回消息考虑向ht

之前的文章和两篇文章都建议添加一个具有正确编码的资源,即UTF-8

此外,在阅读类似的文章和文章时,建议使用

(对我来说)现在还不清楚,如果一个页面已经包含了
,那么
loadHTML
可以限制为
$output=$dom->loadHTML($output,LIBXML\u HTML\u NODEFDTD)。我想是的。正在解析的页面是HTML

同样,我假设
$output=$dom->saveHTML()将同时支持英语和国际语言,如西里尔语、阿拉伯语

问题

  • 如果附加了
    ,W3C验证程序将返回消息
    考虑向html开始标记添加lang属性以声明此文档的语言。
    开始标记未首先看到doctype。应为
    ,因为元素附加在HTML标记之前
  • 如果附加了
    ,验证器同样会投诉
    Saw
    是否被使用
  • 如果一个页面已经指定了正确的编码,那么为什么需要使用这两种方法
  • 应该
    mb_转换_编码($profile,'HTML-ENTITIES,'UTF-8')可以改用吗?如果是,使用它是否安全,或者它是否仍然容易受到XSS或格式错误的HTML的攻击

  • 你说的是HTML代码还是XML代码?@KIKOSoftware-更新了帖子。页面是HTML。在这种情况下,不应该使用
    ,它是用于XML的。@KIKOSoftware-我也希望如此。但是在阅读
    https://sharovatov.github.io/posts/2009-11-php-xml.html
    ,似乎
    loadHTML
    可能有缺陷,应该使用
    。这是11年前的一篇老文章。它还会适用吗?您正在用一段XML修改您的代码,因为您认为可能存在一个bug,而当有人向您指出这个bug时,您就有问题了?我会使用
    来启动HTML5页面。请参阅:然后可能会遵循W3C验证程序提出的建议。你不必听从建议。