Linux 如何从下载的网页中提取信息？_Linux_Bash_Scripting_Grep_Wget

Linux 如何从下载的网页中提取信息？

linux bash scripting grep

Linux 如何从下载的网页中提取信息？,linux,bash,scripting,grep,wget,Linux,Bash,Scripting,Grep,Wget,我必须从数千个网页中系统地提取信息，如大学名称、联系电话、电子邮件ID等。有做这件事的脚本吗完整场景：我使用wget下载了包含各个学院信息的网页。有大约5000个关于每个学院的网页，包含关于他们的信息，但是我只对他们的名字、电子邮件ID、网站和联系电话感兴趣。我需要将提取的信息以系统的顺序保存在一个合适的文件中。如何提取信息？我如何使用grep来完成它？有没有更好的办法？哪些脚本可用于提取信息？ PS：我使用Ubuntu和Kali linux。我是个新手。需要专家的帮助。我假设您的所有文件都

我必须从数千个网页中系统地提取信息，如大学名称、联系电话、电子邮件ID等。有做这件事的脚本吗

完整场景：我使用wget下载了包含各个学院信息的网页。有大约5000个关于每个学院的网页，包含关于他们的信息，但是我只对他们的名字、电子邮件ID、网站和联系电话感兴趣。我需要将提取的信息以系统的顺序保存在一个合适的文件中。如何提取信息？我如何使用grep来完成它？有没有更好的办法？哪些脚本可用于提取信息？

PS：我使用Ubuntu和Kali linux。我是个新手。需要专家的帮助。

我假设您的所有文件都在一个目录中，“cd”指向该目录，并且：

grep -i -e "Name" -e "email" -e "http" ./*

当你看到结果的时候，要改进它。将写入您的屏幕，最后添加以下内容：

>> my_collected_things.txt

把它放到一个文件中。

看看python，它不工作了。它提供了http源文件的输出，所有这些对我来说都是无用的。我是web开发和python的初学者。我尝试与beautifulSoup和mechanize合作，但无法编写一个能够完成任务的脚本。