Sed从html文件中删除标记
我需要使用sed命令从带有bash脚本的html中删除所有标记。 我试过这个Sed从html文件中删除标记,html,regex,linux,bash,Html,Regex,Linux,Bash,我需要使用sed命令从带有bash脚本的html中删除所有标记。 我试过这个 sed -r 's/[\<][\/]?[a-zA-Z0-9\=\"\-\#\.\& ]+[\/]?[\>]//g' $1 sed-r的/[\您可以使用其中的一个,如果可能,可以使用Perl正则表达式,或者如果它必须是sed使用]*> sed -e 's/<[^>]*>//g' file.html 将导致 回答问题 而不是 奥拉夫回答问题 另请参见,特别是第节和下文,以获得详细解
sed -r 's/[\<][\/]?[a-zA-Z0-9\=\"\-\#\.\& ]+[\/]?[\>]//g' $1
sed-r的/[\您可以使用其中的一个,如果可能,可以使用Perl正则表达式
,或者如果它必须是sed
使用]*>
sed -e 's/<[^>]*>//g' file.html
将导致
回答问题
而不是
奥拉夫回答问题
另请参见,特别是第节和下文,以获得详细解释。以下是我最喜欢的关于HTML和正则表达式的答案;-)我很清楚,但这是一个家庭作业:-(我上学的时间很早了,但我认为家庭作业不一定要给出一个完美的答案。它也要表现出一些努力,并有勇气说,这就是我想到的一切。:-)很有魅力。。不过我在sed方面很差劲,所以你能解释一下]*>位吗?[^>]
是一个字符类,它匹配除
之外的任何字符,*
表示重复匹配零次或多次。否则,
将从行中的第一个
匹配到最后一个
,通常跨越多个标记。这是一个很好的答案。功能性和详细性。谢谢。太好了,我需要使用grep-Ev”“
来过滤HTML标记及其内容。非常感谢。
sed -e 's/<[^>]*>//g' file.html
<div
>Lorem ipsum</div>
<name>Olaf</name> answers questions.