Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/string/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
String 对网站进行爬网,然后根据页面上出现的文本字符串下载特定类型的所有文件_String_Download_Web Crawler - Fatal编程技术网

String 对网站进行爬网,然后根据页面上出现的文本字符串下载特定类型的所有文件

String 对网站进行爬网,然后根据页面上出现的文本字符串下载特定类型的所有文件,string,download,web-crawler,String,Download,Web Crawler,我想我有一个非常独特的问题。或者至少我找不到类似问题的解决方案 我想抓取一个网站,然后在每个页面上搜索特定的文本字符串。如果找到文本字符串,我想下载链接到该页面的特定类型(PDF)的所有文件 我希望得到一个完整的答案,但如果有人能为我指出实现这一目标所需的软件或框架的方向,我将不胜感激 没有直接的软件可以一次完成这项工作,除非你是谷歌或雅虎的所有者,可以定期抓取网站 不管怎么说,除了开玩笑,只需一点编程,你就可以轻松做到这一点。不需要任何框架或类似的东西 您将需要: 任何LAMP包XAMP,WA

我想我有一个非常独特的问题。或者至少我找不到类似问题的解决方案

我想抓取一个网站,然后在每个页面上搜索特定的文本字符串。如果找到文本字符串,我想下载链接到该页面的特定类型(PDF)的所有文件


我希望得到一个完整的答案,但如果有人能为我指出实现这一目标所需的软件或框架的方向,我将不胜感激

没有直接的软件可以一次完成这项工作,除非你是谷歌或雅虎的所有者,可以定期抓取网站

不管怎么说,除了开玩笑,只需一点编程,你就可以轻松做到这一点。不需要任何框架或类似的东西

您将需要:

  • 任何LAMP包XAMP,WAMP

  • 卷曲以获取页面

  • Regex解析页面。()

  • wget下载文件或任何你想下载的东西


  • 你可以通过谷歌上的一个简单搜索轻松地检查每一个。Curl将帮助您获取html文件并将它们作为字符串存储在变量中。接下来,您可以使用PHP中的preg_match或ereg_match函数来查找准确的字符串,如果存在,则向wget发送系统调用以下载该文件。链接的网站上有一个软件,可以帮助您获得有关正则表达式(regex)的大量信息,

    我使用Python与urllib和(类似于jQuery)结合使用,但也有一些特殊的框架用于爬行和抓取,就像Python中的一样


    搜索网页抓取。

    您只需使用wget命令即可

    wget -r --accept=mkv,mp3 --tries=10 http://www.rootofwebsite.test/base_url -o log
    

    你打算用什么编程语言?