如何从HTML文件中获取URL？_Url_Grep

如何从HTML文件中获取URL？

url grep

如何从HTML文件中获取URL？,url,grep,Url,Grep,我需要得到一长串有效的URL来测试我的DNS服务器。我发现一个网页有很多链接，可能会产生很多好的链接(http://www.cse.psu.edu/~groenvel/url.html），我想最简单的方法是下载html文件，然后简单地对URL进行grep。然而，我不能让它只列出我的链接结果我知道有很多方法可以做到这一点。我不挑剔它是怎么做的给定上面的URL，我想要一个所有URL的列表（每行一个），如下所示： ... 你需要wget，grep，sed。我将尝试一个解决方案，稍后更新

我需要得到一长串有效的URL来测试我的DNS服务器。我发现一个网页有很多链接，可能会产生很多好的链接(http://www.cse.psu.edu/~groenvel/url.html），我想最简单的方法是下载html文件，然后简单地对URL进行grep。然而，我不能让它只列出我的链接结果

我知道有很多方法可以做到这一点。我不挑剔它是怎么做的

给定上面的URL，我想要一个所有URL的列表（每行一个），如下所示：

...

你需要wget，grep，sed。我将尝试一个解决方案，稍后更新我的帖子

更新：

wget [the_url];

cat urls.html | egrep -i '<a href=".*">' | sed -e 's/.*<A HREF="\(.*\)">.*/\1/i'

wget[the_url]；
cat url.html | egrep-i'| sed-e's/*/\1/i'

方法1 步骤1:

wget "http://www.cse.psu.edu/~groenvel/urls.html"

perl -0ne 'print "$1\n" while (/a href=\"(.*?)\">.*?<\/a>/igs)' /PATH_TO_YOUR/urls.html | grep 'http://' > /PATH_TO_YOUR/urls.txt

lynx --dump http://www.cse.psu.edu/~groenvel/urls.html | awk '/(http|https):\/\// {print $2}' > /PATH_TO_YOUR/urls.txt

第二步：

wget "http://www.cse.psu.edu/~groenvel/urls.html"

perl -0ne 'print "$1\n" while (/a href=\"(.*?)\">.*?<\/a>/igs)' /PATH_TO_YOUR/urls.html | grep 'http://' > /PATH_TO_YOUR/urls.txt

lynx --dump http://www.cse.psu.edu/~groenvel/urls.html | awk '/(http|https):\/\// {print $2}' > /PATH_TO_YOUR/urls.txt

方法3 使用curl：

步骤1

curl http://www.cse.psu.edu/~groenvel/urls.html 2>&1 | egrep -o  "(http|https):.*\">" | awk  'BEGIN {FS="\""};{print $1}' > /PATH_TO_YOUR/urls.txt

方法4 使用wget：

wget -qO- http://www.cse.psu.edu/~groenvel/urls.html 2>&1 | egrep -o  "(http|https):.*\">" | awk  'BEGIN {FS="\""};{print $1}' > /PATH_TO_YOUR/urls.txt