Bash Grep是HTML源代码中的一个标题
下面是我的一个网页的例子,我有很多相同格式的网页。我的任务是提取标题信息。对于下面的示例源代码,我需要提取标题,它是CA-A临床医生癌症杂志。我有两个地方可以找到这个标题Bash Grep是HTML源代码中的一个标题,bash,Bash,下面是我的一个网页的例子,我有很多相同格式的网页。我的任务是提取标题信息。对于下面的示例源代码,我需要提取标题,它是CA-A临床医生癌症杂志。我有两个地方可以找到这个标题 <span class="pageHeaderName">CA-A CANCER JOURNAL FOR CLINICIANS</span></h3> <td valign="top">CA-A CANCER JOURNAL FOR CLINICIANS
<span class="pageHeaderName">CA-A CANCER JOURNAL FOR CLINICIANS</span></h3>
<td valign="top">CA-A CANCER JOURNAL FOR CLINICIANS
CA-A临床医生癌症杂志
CA-A临床医生癌症杂志
我将使用grep定位这个标题,并将其存储为变量($I)
我试过用这个,但没用
jtitle=$(grep "<span class="pageHeaderName">" $i | head -n 1 | cut -d'>' -f4- | cut -d'<' -f1
jtitle=$(grep“$i | head-n1 | cut-d'>'-f4-| cut-d'>”您的问题不清楚如何/从何处获取标题字符串。我使用下面的命令从给定的html文件中提取标题
jtitle=$(sed -n 's/.*<title>\(.*\)<\/title>.*/\1/ip;T;q' <file.html>)
jtitle=$(awk 'BEGIN{IGNORECASE=1;FS="<title>|</title>";RS=EOF} {print $2}' <file.html>)
jtitle=$(sed-n's/*\(.*\)./\1/ip;T;q')
jtitle=$(awk'BEGIN{IGNORECASE=1;FS=“|”;RS=EOF}{print$2}”)
编辑:根据问题中的新模式进行更新
jtitle=$(sed -n 's/.*<span class="pageHeaderName">\(.*\)<\/span>.*/\1/ip;T;q' <file.html>)
jtitle=$(sed-n's/*\(.*\)./\1/ip;T;q')
您需要插入格式化为code的代码。您需要在文件中grep$i-$(grep“$i”| head-n1 | cut-d'>''-f4-| cut-d'抱歉,网站删除了我的全部代码。我会找到一种方法将其放上去。同时,我会查看您的代码:)谢谢Rahul,你是我的英雄……但是你能向我解释一下这有什么用吗?(.*)。*/\1/ip;T;q'提前谢谢:)