Linux 如何从下载的网页中提取信息?

Linux 如何从下载的网页中提取信息?,linux,bash,scripting,grep,wget,Linux,Bash,Scripting,Grep,Wget,我必须从数千个网页中系统地提取信息,如大学名称、联系电话、电子邮件ID等。有做这件事的脚本吗 完整场景:我使用wget下载了包含各个学院信息的网页。有大约5000个关于每个学院的网页,包含关于他们的信息,但是我只对他们的名字、电子邮件ID、网站和联系电话感兴趣。我需要将提取的信息以系统的顺序保存在一个合适的文件中。 如何提取信息?我如何使用grep来完成它?有没有更好的办法?哪些脚本可用于提取信息? PS:我使用Ubuntu和Kali linux。我是个新手。需要专家的帮助。我假设您的所有文件都

我必须从数千个网页中系统地提取信息,如大学名称、联系电话、电子邮件ID等。有做这件事的脚本吗

完整场景:我使用wget下载了包含各个学院信息的网页。有大约5000个关于每个学院的网页,包含关于他们的信息,但是我只对他们的名字、电子邮件ID、网站和联系电话感兴趣。我需要将提取的信息以系统的顺序保存在一个合适的文件中。 如何提取信息?我如何使用grep来完成它?有没有更好的办法?哪些脚本可用于提取信息?
PS:我使用Ubuntu和Kali linux。我是个新手。需要专家的帮助。

我假设您的所有文件都在一个目录中,“cd”指向该目录,并且:

grep -i -e "Name" -e "email" -e "http" ./*
当你看到结果的时候,要改进它。将写入您的屏幕,最后添加以下内容:

>> my_collected_things.txt

把它放到一个文件中。

看看python,它不工作了。它提供了http源文件的输出,所有这些对我来说都是无用的。我是web开发和python的初学者。我尝试与beautifulSoup和mechanize合作,但无法编写一个能够完成任务的脚本。