String 对网站进行爬网，然后根据页面上出现的文本字符串下载特定类型的所有文件_String_Download_Web Crawler

String 对网站进行爬网，然后根据页面上出现的文本字符串下载特定类型的所有文件

string download web-crawler

String 对网站进行爬网，然后根据页面上出现的文本字符串下载特定类型的所有文件,string,download,web-crawler,String,Download,Web Crawler,我想我有一个非常独特的问题。或者至少我找不到类似问题的解决方案我想抓取一个网站，然后在每个页面上搜索特定的文本字符串。如果找到文本字符串，我想下载链接到该页面的特定类型（PDF）的所有文件我希望得到一个完整的答案，但如果有人能为我指出实现这一目标所需的软件或框架的方向，我将不胜感激没有直接的软件可以一次完成这项工作，除非你是谷歌或雅虎的所有者，可以定期抓取网站不管怎么说，除了开玩笑，只需一点编程，你就可以轻松做到这一点。不需要任何框架或类似的东西您将需要：任何LAMP包XAMP，WA

我想我有一个非常独特的问题。或者至少我找不到类似问题的解决方案

我想抓取一个网站，然后在每个页面上搜索特定的文本字符串。如果找到文本字符串，我想下载链接到该页面的特定类型（PDF）的所有文件

我希望得到一个完整的答案，但如果有人能为我指出实现这一目标所需的软件或框架的方向，我将不胜感激

没有直接的软件可以一次完成这项工作，除非你是谷歌或雅虎的所有者，可以定期抓取网站

不管怎么说，除了开玩笑，只需一点编程，你就可以轻松做到这一点。不需要任何框架或类似的东西

您将需要：

任何LAMP包XAMP，WAMP

卷曲以获取页面

Regex解析页面。（）

wget下载文件或任何你想下载的东西

你可以通过谷歌上的一个简单搜索轻松地检查每一个。Curl将帮助您获取html文件并将它们作为字符串存储在变量中。接下来，您可以使用PHP中的preg_match或ereg_match函数来查找准确的字符串，如果存在，则向wget发送系统调用以下载该文件。链接的网站上有一个软件，可以帮助您获得有关正则表达式（regex）的大量信息，

我使用Python与urllib和（类似于jQuery）结合使用，但也有一些特殊的框架用于爬行和抓取，就像Python中的一样

搜索网页抓取。

您只需使用wget命令即可

wget -r --accept=mkv,mp3 --tries=10 http://www.rootofwebsite.test/base_url -o log

你打算用什么编程语言？