Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Regex 从html文件中查找唯一的文件名 $cat下载的\u file.html 13732010年11月22日星期一凌晨1:31_Regex_Shell_Sed_Awk_Grep - Fatal编程技术网

Regex 从html文件中查找唯一的文件名 $cat下载的\u file.html 13732010年11月22日星期一凌晨1:31

Regex 从html文件中查找唯一的文件名 $cat下载的\u file.html 13732010年11月22日星期一凌晨1:31,regex,shell,sed,awk,grep,Regex,Shell,Sed,Awk,Grep,如何从shell脚本中搜索html文件并选择唯一的文件名,这些文件名以STDMON开头,以\u company.txtawk-F'>|结尾,如果只有STDMON和\u company.txt之间的数字,则可以执行以下操作: $ cat downloaded_file.html 1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON11202010_company.txt</A><br>

如何从shell脚本中搜索html文件并选择唯一的文件名,这些文件名以
STDMON
开头,以
\u company.txt
awk-F'>|结尾,如果只有
STDMON
\u company.txt
之间的数字,则可以执行以下操作:

$ cat downloaded_file.html

1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON11202010_company.txt</A><br> Monday, November 22, 2010  1:31 AM  
$ awk -F'>|<' '$3 ~ /STDMON[0-9]+_company.txt/ && !a[$0=$3]++'
STDMON11202010_company.txt
STDMON14959440_company.txt
STDMON12342440_company.txt
grep -o 'STDMON[0-9]*_company\.txt' input.txt | sort -u

如果你能做些什么:

$ awk -F'>|<' '$3 ~ /STDMON[0-9]+_company.txt/ && !a[$0=$3]++'
STDMON11202010_company.txt
STDMON14959440_company.txt
STDMON12342440_company.txt
grep -o 'STDMON[0-9]*_company\.txt' input.txt | sort -u
grep -oP 'STDMON.*?_company\.txt' input.txt | sort -u