Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/bash/18.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Bash Grep是HTML源代码中的一个标题_Bash - Fatal编程技术网

Bash Grep是HTML源代码中的一个标题

Bash Grep是HTML源代码中的一个标题,bash,Bash,下面是我的一个网页的例子,我有很多相同格式的网页。我的任务是提取标题信息。对于下面的示例源代码,我需要提取标题,它是CA-A临床医生癌症杂志。我有两个地方可以找到这个标题 <span class="pageHeaderName">CA-A CANCER JOURNAL FOR CLINICIANS</span></h3> <td valign="top">CA-A CANCER JOURNAL FOR CLINICIANS&nbsp;

下面是我的一个网页的例子,我有很多相同格式的网页。我的任务是提取标题信息。对于下面的示例源代码,我需要提取标题,它是CA-A临床医生癌症杂志。我有两个地方可以找到这个标题

<span class="pageHeaderName">CA-A CANCER JOURNAL FOR CLINICIANS</span></h3>

<td valign="top">CA-A CANCER JOURNAL FOR CLINICIANS&nbsp;
CA-A临床医生癌症杂志 CA-A临床医生癌症杂志 我将使用grep定位这个标题,并将其存储为变量($I)

我试过用这个,但没用

jtitle=$(grep "<span class="pageHeaderName">" $i | head -n 1 | cut -d'>' -f4- | cut -d'<' -f1

jtitle=$(grep“$i | head-n1 | cut-d'>'-f4-| cut-d'>”您的问题不清楚如何/从何处获取标题字符串。我使用下面的命令从给定的html文件中提取标题

jtitle=$(sed -n 's/.*<title>\(.*\)<\/title>.*/\1/ip;T;q' <file.html>)

jtitle=$(awk 'BEGIN{IGNORECASE=1;FS="<title>|</title>";RS=EOF} {print $2}' <file.html>)
jtitle=$(sed-n's/*\(.*\)./\1/ip;T;q')
jtitle=$(awk'BEGIN{IGNORECASE=1;FS=“|”;RS=EOF}{print$2}”)
编辑:根据问题中的新模式进行更新

jtitle=$(sed -n 's/.*<span class="pageHeaderName">\(.*\)<\/span>.*/\1/ip;T;q' <file.html>)
jtitle=$(sed-n's/*\(.*\)./\1/ip;T;q')

您需要插入格式化为code的代码。您需要在文件中grep$i-
$(grep“$i”| head-n1 | cut-d'>''-f4-| cut-d'抱歉,网站删除了我的全部代码。我会找到一种方法将其放上去。同时,我会查看您的代码:)谢谢Rahul,你是我的英雄……但是你能向我解释一下这有什么用吗?(.*)。*/\1/ip;T;q'提前谢谢:)