String 对网站进行爬网,然后根据页面上出现的文本字符串下载特定类型的所有文件
我想我有一个非常独特的问题。或者至少我找不到类似问题的解决方案 我想抓取一个网站,然后在每个页面上搜索特定的文本字符串。如果找到文本字符串,我想下载链接到该页面的特定类型(PDF)的所有文件String 对网站进行爬网,然后根据页面上出现的文本字符串下载特定类型的所有文件,string,download,web-crawler,String,Download,Web Crawler,我想我有一个非常独特的问题。或者至少我找不到类似问题的解决方案 我想抓取一个网站,然后在每个页面上搜索特定的文本字符串。如果找到文本字符串,我想下载链接到该页面的特定类型(PDF)的所有文件 我希望得到一个完整的答案,但如果有人能为我指出实现这一目标所需的软件或框架的方向,我将不胜感激 没有直接的软件可以一次完成这项工作,除非你是谷歌或雅虎的所有者,可以定期抓取网站 不管怎么说,除了开玩笑,只需一点编程,你就可以轻松做到这一点。不需要任何框架或类似的东西 您将需要: 任何LAMP包XAMP,WA
我希望得到一个完整的答案,但如果有人能为我指出实现这一目标所需的软件或框架的方向,我将不胜感激 没有直接的软件可以一次完成这项工作,除非你是谷歌或雅虎的所有者,可以定期抓取网站 不管怎么说,除了开玩笑,只需一点编程,你就可以轻松做到这一点。不需要任何框架或类似的东西 您将需要:
你可以通过谷歌上的一个简单搜索轻松地检查每一个。Curl将帮助您获取html文件并将它们作为字符串存储在变量中。接下来,您可以使用PHP中的preg_match或ereg_match函数来查找准确的字符串,如果存在,则向wget发送系统调用以下载该文件。链接的网站上有一个软件,可以帮助您获得有关正则表达式(regex)的大量信息,我使用Python与urllib和(类似于jQuery)结合使用,但也有一些特殊的框架用于爬行和抓取,就像Python中的一样
搜索网页抓取。您只需使用wget命令即可
wget -r --accept=mkv,mp3 --tries=10 http://www.rootofwebsite.test/base_url -o log
你打算用什么编程语言?