Bash 在<;之后添加换行符/tr>;壳
我正在学习写网站刮刀的基础知识。下载网站后,我想提取Bash 在<;之后添加换行符/tr>;壳,bash,shell,sed,web-scraping,newline,Bash,Shell,Sed,Web Scraping,Newline,我正在学习写网站刮刀的基础知识。下载网站后,我想提取和之间的信息 $ cat < file <tr><td>Adopt</td><td>H<u>a</u>nai</td></tr><tr><td>Affection</td><td>Pumehana</td></tr> $cat
和
之间的信息
$ cat < file
<tr><td>Adopt</td><td>H<u>a</u>nai</td></tr><tr><td>Affection</td><td>Pumehana</td></tr>
$cat
我的目标是得到这样的东西
$cat < clean
Adopt Hanai
Affection Pumehana
$cat
我想首先使用sed
在模式*
后添加一个换行符,然后删除模式中的所有内容,但不确定如何执行。有什么建议吗?您可以:
sed $'s/<\/tr><tr>/&\\\n/g; s/<\/td><td>/ /g; s/<[^>]*>//g' file
Adopt Hanai
Affection Pumehana
sed$的//&\\\ n/g;s///g;s/]*>//g'文件
收养哈奈
普米汉娜酒店
但是,对于更复杂的HTML解析,最好使用专用的HTML解析器。sed不是合适的工具。看一看合适的HTML解析器。python或perl中有许多选项。感谢您的建议。我知道有更好的工具,但我的老师说使用sed。