Awk 提取url上方的html标题

Awk 提取url上方的html标题,awk,sed,wget,Awk,Sed,Wget,当我使用这个命令时 wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print $2$4}' >> new.txt 它将url和标题列表保存在一个txt文件中,如下所示 /player/episode/g0656bgp/the-night-manager-episode-4The Night Manager, Episo

当我使用这个命令时

wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print $2$4}' >> new.txt
它将url和标题列表保存在一个txt文件中,如下所示

/player/episode/g0656bgp/the-night-manager-episode-4The Night Manager, Episode 4
The Night Manager, Episode 4
/player/episode/g0656bgp/the-night-manager-episode-4
我希望它能像这样保存

/player/episode/g0656bgp/the-night-manager-episode-4The Night Manager, Episode 4
The Night Manager, Episode 4
/player/episode/g0656bgp/the-night-manager-episode-4
标题位于url上方 对于每个url和标题

我可以使用sed-awk-wget-grep

谢谢

试试:

wget--quiet-O-http://www.some-site.com |egrep-e'/player/eposion/[^”]*“title=“[.?]*”| awk-F'”{print$4”\n“$2}”>>new.txt
与原始代码相比,只有
awk
发生了更改:

  • 重新排列字段顺序,将字段4放在字段2之前
  • 然后使用
    “\n”
    在它们之间插入新行

因此,这将成功地使标题位于您想要的URL上方。只要您的原始代码对您有效,这也应该有效。

使用XML/HTML解析器(xmllint,xmlstarlet…),祝您好运。你有编程问题吗?这个网站是用来提问的,不是一个可以发布需求/待办事项列表的地方查看这个网站上提出的许多问题有很多关于各种事情的问题不仅仅是编程我看不出我的问题有什么问题?如果你有权访问xmlstarlet,请在某处上传一个HTML示例页面。谢谢你的回复cyrus,我想我无法访问xmlstarlet这可以通过sed-awk-egrep-etcthank你的用户454038来完成,我在这个网站上问了4个问题,这里的所有人都非常乐于助人Marc B,请冷静下来