如何从HTML文件中获取URL?
我需要得到一长串有效的URL来测试我的DNS服务器。我发现一个网页有很多链接,可能会产生很多好的链接(http://www.cse.psu.edu/~groenvel/url.html),我想最简单的方法是下载html文件,然后简单地对URL进行grep。然而,我不能让它只列出我的链接结果 我知道有很多方法可以做到这一点。我不挑剔它是怎么做的 给定上面的URL,我想要一个所有URL的列表(每行一个),如下所示:如何从HTML文件中获取URL?,url,grep,Url,Grep,我需要得到一长串有效的URL来测试我的DNS服务器。我发现一个网页有很多链接,可能会产生很多好的链接(http://www.cse.psu.edu/~groenvel/url.html),我想最简单的方法是下载html文件,然后简单地对URL进行grep。然而,我不能让它只列出我的链接结果 我知道有很多方法可以做到这一点。我不挑剔它是怎么做的 给定上面的URL,我想要一个所有URL的列表(每行一个),如下所示: ... 你需要wget,grep,sed。 我将尝试一个解决方案,稍后更新
... 你需要wget,grep,sed。 我将尝试一个解决方案,稍后更新我的帖子 更新:
wget [the_url];
cat urls.html | egrep -i '<a href=".*">' | sed -e 's/.*<A HREF="\(.*\)">.*/\1/i'
wget[the_url];
cat url.html | egrep-i'| sed-e's/*/\1/i'
方法1
步骤1:
wget "http://www.cse.psu.edu/~groenvel/urls.html"
perl -0ne 'print "$1\n" while (/a href=\"(.*?)\">.*?<\/a>/igs)' /PATH_TO_YOUR/urls.html | grep 'http://' > /PATH_TO_YOUR/urls.txt
lynx --dump http://www.cse.psu.edu/~groenvel/urls.html | awk '/(http|https):\/\// {print $2}' > /PATH_TO_YOUR/urls.txt
第二步:
wget "http://www.cse.psu.edu/~groenvel/urls.html"
perl -0ne 'print "$1\n" while (/a href=\"(.*?)\">.*?<\/a>/igs)' /PATH_TO_YOUR/urls.html | grep 'http://' > /PATH_TO_YOUR/urls.txt
lynx --dump http://www.cse.psu.edu/~groenvel/urls.html | awk '/(http|https):\/\// {print $2}' > /PATH_TO_YOUR/urls.txt
方法3
使用curl:
步骤1
curl http://www.cse.psu.edu/~groenvel/urls.html 2>&1 | egrep -o "(http|https):.*\">" | awk 'BEGIN {FS="\""};{print $1}' > /PATH_TO_YOUR/urls.txt
方法4
使用wget:
wget -qO- http://www.cse.psu.edu/~groenvel/urls.html 2>&1 | egrep -o "(http|https):.*\">" | awk 'BEGIN {FS="\""};{print $1}' > /PATH_TO_YOUR/urls.txt