如何在bash/awk脚本中从HTML提取元标记？_Bash_Command Line_Awk_Metadata

如何在bash/awk脚本中从HTML提取元标记？

bash command-line awk

如何在bash/awk脚本中从HTML提取元标记？,bash,command-line,awk,metadata,Bash,Command Line,Awk,Metadata,我有一个工作的Bash脚本来提取标题标签。我需要一个AWK字段分隔符的帮助，用于从HTML中提取元标记，如下所示： <meta name="keywords" content="key1, key2, key3"> 我想我需要一个正则表达式解决方案。有什么想法吗？首先安装，例如输出 @property=og:title @content=Latin FM ... 只要这样做： $ awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,

我有一个工作的Bash脚本来提取标题标签。我需要一个AWK字段分隔符的帮助，用于从HTML中提取元标记，如下所示：

<meta name="keywords" content="key1, key2, key3">

我想我需要一个正则表达式解决方案。有什么想法吗？

首先安装，例如

输出

@property=og:title
@content=Latin FM
...

只要这样做：

$ awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }' file
keywords

要从网站获取，请使用

wget

wget -O- -q $url | awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }'

埃里克，谢谢你的评论。我的桌面是Mac OS，我的操作系统和框架上到处都是xml2（在Xcode中检查），但我不知道如何使用它（执行xml2）。

$ awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }' file
keywords

wget -O- -q $url | awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }'