Bash 在<;之后添加换行符/tr>;壳

Bash 在<;之后添加换行符/tr>;壳,bash,shell,sed,web-scraping,newline,Bash,Shell,Sed,Web Scraping,Newline,我正在学习写网站刮刀的基础知识。下载网站后,我想提取和之间的信息 $ cat < file <tr><td>Adopt</td><td>H<u>a</u>nai</td></tr><tr><td>Affection</td><td>Pumehana</td></tr> $cat

我正在学习写网站刮刀的基础知识。下载网站后,我想提取
之间的信息

$ cat < file
<tr><td>Adopt</td><td>H<u>a</u>nai</td></tr><tr><td>Affection</td><td>Pumehana</td></tr>
$cat
我的目标是得到这样的东西

$cat < clean
Adopt Hanai
Affection Pumehana
$cat
我想首先使用
sed
在模式
*
后添加一个换行符,然后删除模式中的所有内容,但不确定如何执行。有什么建议吗?

您可以:

sed $'s/<\/tr><tr>/&\\\n/g; s/<\/td><td>/ /g; s/<[^>]*>//g' file
Adopt Hanai
Affection Pumehana
sed$的//&\\\ n/g;s///g;s/]*>//g'文件
收养哈奈
普米汉娜酒店

但是,对于更复杂的HTML解析,最好使用专用的HTML解析器。

sed不是合适的工具。看一看合适的HTML解析器。python或perl中有许多选项。感谢您的建议。我知道有更好的工具,但我的老师说使用sed。