如何在bash/awk脚本中从HTML提取元标记?
我有一个工作的Bash脚本来提取标题标签。我需要一个AWK字段分隔符的帮助,用于从HTML中提取元标记,如下所示:如何在bash/awk脚本中从HTML提取元标记?,bash,command-line,awk,metadata,Bash,Command Line,Awk,Metadata,我有一个工作的Bash脚本来提取标题标签。我需要一个AWK字段分隔符的帮助,用于从HTML中提取元标记,如下所示: <meta name="keywords" content="key1, key2, key3"> 我想我需要一个正则表达式解决方案。有什么想法吗?首先安装,例如 输出 @property=og:title @content=Latin FM ... 只要这样做: $ awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,
<meta name="keywords" content="key1, key2, key3">
我想我需要一个正则表达式解决方案。有什么想法吗?首先安装,例如
输出
@property=og:title
@content=Latin FM
...
只要这样做:
$ awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }' file
keywords
要从网站获取,请使用wget
wget -O- -q $url | awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }'
埃里克,谢谢你的评论。我的桌面是Mac OS,我的操作系统和框架上到处都是xml2(在Xcode中检查),但我不知道如何使用它(执行xml2)。
$ awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }' file
keywords
wget -O- -q $url | awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }'