Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何从HTML文件中获取URL?_Url_Grep - Fatal编程技术网

如何从HTML文件中获取URL?

如何从HTML文件中获取URL?,url,grep,Url,Grep,我需要得到一长串有效的URL来测试我的DNS服务器。我发现一个网页有很多链接,可能会产生很多好的链接(http://www.cse.psu.edu/~groenvel/url.html),我想最简单的方法是下载html文件,然后简单地对URL进行grep。然而,我不能让它只列出我的链接结果 我知道有很多方法可以做到这一点。我不挑剔它是怎么做的 给定上面的URL,我想要一个所有URL的列表(每行一个),如下所示: ... 你需要wget,grep,sed。 我将尝试一个解决方案,稍后更新

我需要得到一长串有效的URL来测试我的DNS服务器。我发现一个网页有很多链接,可能会产生很多好的链接(http://www.cse.psu.edu/~groenvel/url.html),我想最简单的方法是下载html文件,然后简单地对URL进行grep。然而,我不能让它只列出我的链接结果

我知道有很多方法可以做到这一点。我不挑剔它是怎么做的

给定上面的URL,我想要一个所有URL的列表(每行一个),如下所示:




...

你需要wget,grep,sed。 我将尝试一个解决方案,稍后更新我的帖子

更新:

wget [the_url];

cat urls.html | egrep -i '<a href=".*">' | sed -e 's/.*<A HREF="\(.*\)">.*/\1/i'
wget[the_url];
cat url.html | egrep-i'| sed-e's/*/\1/i'
方法1 步骤1:

wget "http://www.cse.psu.edu/~groenvel/urls.html"
perl -0ne 'print "$1\n" while (/a href=\"(.*?)\">.*?<\/a>/igs)' /PATH_TO_YOUR/urls.html | grep 'http://' > /PATH_TO_YOUR/urls.txt
lynx --dump http://www.cse.psu.edu/~groenvel/urls.html | awk '/(http|https):\/\// {print $2}' > /PATH_TO_YOUR/urls.txt
第二步:

wget "http://www.cse.psu.edu/~groenvel/urls.html"
perl -0ne 'print "$1\n" while (/a href=\"(.*?)\">.*?<\/a>/igs)' /PATH_TO_YOUR/urls.html | grep 'http://' > /PATH_TO_YOUR/urls.txt
lynx --dump http://www.cse.psu.edu/~groenvel/urls.html | awk '/(http|https):\/\// {print $2}' > /PATH_TO_YOUR/urls.txt
方法3 使用curl:

步骤1

curl http://www.cse.psu.edu/~groenvel/urls.html 2>&1 | egrep -o  "(http|https):.*\">" | awk  'BEGIN {FS="\""};{print $1}' > /PATH_TO_YOUR/urls.txt
方法4 使用wget:

wget -qO- http://www.cse.psu.edu/~groenvel/urls.html 2>&1 | egrep -o  "(http|https):.*\">" | awk  'BEGIN {FS="\""};{print $1}' > /PATH_TO_YOUR/urls.txt