Regex 从html文件中查找唯一的文件名 $cat下载的\u file.html 13732010年11月22日星期一凌晨1:31
如何从shell脚本中搜索html文件并选择唯一的文件名,这些文件名以Regex 从html文件中查找唯一的文件名 $cat下载的\u file.html 13732010年11月22日星期一凌晨1:31,regex,shell,sed,awk,grep,Regex,Shell,Sed,Awk,Grep,如何从shell脚本中搜索html文件并选择唯一的文件名,这些文件名以STDMON开头,以\u company.txtawk-F'>|结尾,如果只有STDMON和\u company.txt之间的数字,则可以执行以下操作: $ cat downloaded_file.html 1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON11202010_company.txt</A><br>
STDMON
开头,以\u company.txt
awk-F'>|结尾,如果只有STDMON
和\u company.txt
之间的数字,则可以执行以下操作:
$ cat downloaded_file.html
1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON11202010_company.txt</A><br> Monday, November 22, 2010 1:31 AM
$ awk -F'>|<' '$3 ~ /STDMON[0-9]+_company.txt/ && !a[$0=$3]++'
STDMON11202010_company.txt
STDMON14959440_company.txt
STDMON12342440_company.txt
grep -o 'STDMON[0-9]*_company\.txt' input.txt | sort -u
如果你能做些什么:
$ awk -F'>|<' '$3 ~ /STDMON[0-9]+_company.txt/ && !a[$0=$3]++'
STDMON11202010_company.txt
STDMON14959440_company.txt
STDMON12342440_company.txt
grep -o 'STDMON[0-9]*_company\.txt' input.txt | sort -u
grep -oP 'STDMON.*?_company\.txt' input.txt | sort -u