Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/database/8.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/heroku/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php Ubuntu:如何从多个网站批量下载一个字段?_Php_Database_Scripting_Curl_Download - Fatal编程技术网

Php Ubuntu:如何从多个网站批量下载一个字段?

Php Ubuntu:如何从多个网站批量下载一个字段?,php,database,scripting,curl,download,Php,Database,Scripting,Curl,Download,我有权这样做 我有一个大约250页的网站,我需要从中下载“产品描述”和“产品图片”。我该怎么做?我希望将数据输出到CSV中,以便将其放入DB表中。有人能给我指一个好的教程来开始这个吗?我应该用cURL,对吗 到目前为止,我是从另一个stackoverflow页面得到的: 我创造了这个很糟糕的东西来获取图像: #!/bin/bash lynx --source "www.site.com"|cut -d\" -f8|grep jpg|while read image do wget "www.s

我有权这样做

我有一个大约250页的网站,我需要从中下载“产品描述”和“产品图片”。我该怎么做?我希望将数据输出到CSV中,以便将其放入DB表中。有人能给我指一个好的教程来开始这个吗?我应该用cURL,对吗

到目前为止,我是从另一个stackoverflow页面得到的:

我创造了这个很糟糕的东西来获取图像:

#!/bin/bash

lynx --source "www.site.com"|cut -d\" -f8|grep jpg|while read image
do
wget "www.site.com/$image"
done

通过观看此视频:。

您想进行所谓的屏幕抓取

以下是一些帮助您入门的链接:


如果您有权限,您是否会在本地拥有这些文件(即不需要使用curl作为网站访问它们?)如果您想要繁琐的代码,那么fiddly curl API确实比PHPs HttpRequest、PEAR Http_请求或Zend_Http更受欢迎。如果它是一次性下载的东西,那么一个简单的
wget-phttp://example.org/prodcuts/*
可能更简单。Perl的
WWW::Mechanize
浮现在脑海中。可能是一个比PHP更好的工具(主要是因为CPAN很棒)@Fosco:No.@Mario:是否可以通过DIV或其他方式使用wget?@Fosco:如果数据是公开的,你可以这样做。我想从命令行执行,我觉得“屏幕抓取”是可视化的。不过,我会看看这些链接,然后再联系你。谢谢你,拜伦。也许这叫做“递归抓取”?我查看了这些链接,发现其中许多链接导致返回错误的代码。例如,第一个链接的第一个代码块返回无效的令牌错误。我希望你能以某种方式树立一个好榜样。:)我找到了一个,我想在我自己的答案中把它联系起来。不过,我欢迎你尝试先回来。非常感谢。
#!/bin/bash

lynx --source "www.site.com"|cut -d\" -f8|grep jpg|while read image
do
wget "www.site.com/$image"
done