使用PHP/Python下载url中的特定文件_Php_Python_Web Crawler_Wget

使用PHP/Python下载url中的特定文件

php python web-crawler

使用PHP/Python下载url中的特定文件,php,python,web-crawler,wget,Php,Python,Web Crawler,Wget,我以前在linux终端上使用wget-r下载具有特定扩展名的文件： wget -r -A Ext URL 但现在我的讲师指派我使用PHP或Python做同样的事情。谁能帮忙？我想urllib对你来说很合适 import urllib urllib.urlretrieve (URL, file) 您可以使用PHP函数file\u get\u contents（）检索文档的内容。函数的第一个参数是filename，它可以是文件的本地路径或URL。参见PHP中的示例或者，您可以使用：Reque

我以前在linux终端上使用

wget-r

下载具有特定扩展名的文件：

wget -r -A Ext URL

但现在我的讲师指派我使用PHP或Python做同样的事情。谁能帮忙？

我想urllib对你来说很合适

import urllib
urllib.urlretrieve (URL, file)

您可以使用PHP函数

file\u get\u contents（）

检索文档的内容。函数的第一个参数是filename，它可以是文件的本地路径或URL。
参见PHP中的示例

或者，您可以使用：Requests是Python唯一的非转基因HTTP库，可供人类安全使用

示例（来自文档）：

对于Python，请使用诸如scrapy之类的web爬虫库

当传递的参数与您在

wget

命令行上输入的参数类似时，它可以完成所有工作

您可以使用scrapy过滤掉不需要的下载，并对下载进行增值，例如添加缩略图

<?php
    $homepage = file_get_contents('http://www.example.com/');
    echo $homepage;
?>

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'private_gists': 419, u'total_private_repos': 77, ...}