Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/293.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php 将HTML代码转换为纯文本,并对文本文件提供格式设置_Php_Dom_Strip Tags_Text Formatting_Html Rendering - Fatal编程技术网

Php 将HTML代码转换为纯文本,并对文本文件提供格式设置

Php 将HTML代码转换为纯文本,并对文本文件提供格式设置,php,dom,strip-tags,text-formatting,html-rendering,Php,Dom,Strip Tags,Text Formatting,Html Rendering,任务:获取HTML页面,只保留其中的文本,并为简单文本提供格式:因此,如果有标记,我希望将其转换为/r/n,如果有表,我希望在结果文本中保留此表的初始结构,依此类推 有内置的PHP函数strip_tags(),它并不真正符合我的要求,因为它将保留样式和脚本的内容,并且不会保留删除,和其他标记的格式 我也读过这本书,但是没有我想要的答案 本质上,我正在寻找一种将HTML页面呈现为TXT文件(没有链接和图像)的方法。可能吗?有没有库可以做这件事?你可以做的一件事是,你可以做一个反向降价。有很多HTM

任务:获取HTML页面,只保留其中的文本,并为简单文本提供格式:因此,如果有

标记,我希望将其转换为/r/n,如果有表,我希望在结果文本中保留此表的初始结构,依此类推

有内置的PHP函数
strip_tags()
,它并不真正符合我的要求,因为它将保留样式和脚本的内容,并且不会保留删除

和其他标记的格式

我也读过这本书,但是没有我想要的答案


本质上,我正在寻找一种将HTML页面呈现为TXT文件(没有链接和图像)的方法。可能吗?有没有库可以做这件事?

你可以做的一件事是,你可以做一个反向降价。有很多HTML的实现需要标记,这可以完成您想要的工作。他们只是将HTML转换为文本,包括分隔符等

一个这样的实施是。它使用NodeJS,您只需添加以下内容:

html2markdown("<h1>Hello markdown!</h1>")
这将返回给您以下信息:

echo $markdown; // ==> ### Quick, to the Batpoles!
该插件还可以剥离标签:

$html = '<span>Turnips!</span>';
$markdown = new HTML_To_Markdown($html, array('strip_tags' => true)); // $markdown now contains "Turnips!"    
$html='Turnips!';
$markdown=new HTML_To_markdown($HTML,array('strip_tags'=>true));//$降价现在包含“萝卜!”
$html = '<span>Turnips!</span>';
$markdown = new HTML_To_Markdown($html, array('strip_tags' => true)); // $markdown now contains "Turnips!"