Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Sed从html文件中删除标记_Html_Regex_Linux_Bash - Fatal编程技术网

Sed从html文件中删除标记

Sed从html文件中删除标记,html,regex,linux,bash,Html,Regex,Linux,Bash,我需要使用sed命令从带有bash脚本的html中删除所有标记。 我试过这个 sed -r 's/[\<][\/]?[a-zA-Z0-9\=\"\-\#\.\& ]+[\/]?[\>]//g' $1 sed-r的/[\您可以使用其中的一个,如果可能,可以使用Perl正则表达式,或者如果它必须是sed使用]*> sed -e 's/<[^>]*>//g' file.html 将导致 回答问题 而不是 奥拉夫回答问题 另请参见,特别是第节和下文,以获得详细解

我需要使用sed命令从带有bash脚本的html中删除所有标记。 我试过这个

sed -r 's/[\<][\/]?[a-zA-Z0-9\=\"\-\#\.\& ]+[\/]?[\>]//g' $1

sed-r的/[\您可以使用其中的一个,如果可能,可以使用Perl正则表达式
,或者如果它必须是
sed
使用
]*>

sed -e 's/<[^>]*>//g' file.html
将导致

回答问题

而不是

奥拉夫回答问题


另请参见,特别是第节和下文,以获得详细解释。

以下是我最喜欢的关于HTML和正则表达式的答案;-)我很清楚,但这是一个家庭作业:-(我上学的时间很早了,但我认为家庭作业不一定要给出一个完美的答案。它也要表现出一些努力,并有勇气说,这就是我想到的一切。:-)很有魅力。。不过我在sed方面很差劲,所以你能解释一下]*>位吗?
[^>]
是一个字符类,它匹配除
之外的任何字符,
*
表示重复匹配零次或多次。否则,
将从行中的第一个
匹配到最后一个
,通常跨越多个标记。这是一个很好的答案。功能性和详细性。谢谢。太好了,我需要使用
grep-Ev”“
来过滤HTML标记及其内容。非常感谢。
sed -e 's/<[^>]*>//g' file.html
<div
>Lorem ipsum</div>
<name>Olaf</name> answers questions.