Php Ubuntu:如何从多个网站批量下载一个字段?
我有权这样做 我有一个大约250页的网站,我需要从中下载“产品描述”和“产品图片”。我该怎么做?我希望将数据输出到CSV中,以便将其放入DB表中。有人能给我指一个好的教程来开始这个吗?我应该用cURL,对吗 到目前为止,我是从另一个stackoverflow页面得到的: 我创造了这个很糟糕的东西来获取图像:Php Ubuntu:如何从多个网站批量下载一个字段?,php,database,scripting,curl,download,Php,Database,Scripting,Curl,Download,我有权这样做 我有一个大约250页的网站,我需要从中下载“产品描述”和“产品图片”。我该怎么做?我希望将数据输出到CSV中,以便将其放入DB表中。有人能给我指一个好的教程来开始这个吗?我应该用cURL,对吗 到目前为止,我是从另一个stackoverflow页面得到的: 我创造了这个很糟糕的东西来获取图像: #!/bin/bash lynx --source "www.site.com"|cut -d\" -f8|grep jpg|while read image do wget "www.s
#!/bin/bash
lynx --source "www.site.com"|cut -d\" -f8|grep jpg|while read image
do
wget "www.site.com/$image"
done
通过观看此视频:。您想进行所谓的屏幕抓取 以下是一些帮助您入门的链接:
wget-phttp://example.org/prodcuts/*
可能更简单。Perl的WWW::Mechanize
浮现在脑海中。可能是一个比PHP更好的工具(主要是因为CPAN很棒)@Fosco:No.@Mario:是否可以通过DIV或其他方式使用wget?@Fosco:如果数据是公开的,你可以这样做。我想从命令行执行,我觉得“屏幕抓取”是可视化的。不过,我会看看这些链接,然后再联系你。谢谢你,拜伦。也许这叫做“递归抓取”?我查看了这些链接,发现其中许多链接导致返回错误的代码。例如,第一个链接的第一个代码块返回无效的令牌错误。我希望你能以某种方式树立一个好榜样。:)我找到了一个,我想在我自己的答案中把它联系起来。不过,我欢迎你尝试先回来。非常感谢。
#!/bin/bash
lynx --source "www.site.com"|cut -d\" -f8|grep jpg|while read image
do
wget "www.site.com/$image"
done