Wordpress 抓取漫画书网站的产品信息
我正在为一位老朋友制作一个基于WordPress平台的漫画书网站。我希望能够有一个脚本,去各个出版商的网站,并在数据拉。我是编程新手,我读过很多不同的选择,只是不知道从哪里开始。首先,从这些网站获取这些内容是否合法?其次,这里有一个我想做的例子Wordpress 抓取漫画书网站的产品信息,wordpress,automation,screen-scraping,Wordpress,Automation,Screen Scraping,我正在为一位老朋友制作一个基于WordPress平台的漫画书网站。我希望能够有一个脚本,去各个出版商的网站,并在数据拉。我是编程新手,我读过很多不同的选择,只是不知道从哪里开始。首先,从这些网站获取这些内容是否合法?其次,这里有一个我想做的例子 页面显示本月的结果。从中复制所有链接 在相应的div中指向漫画书的那一页 细节。将每个超链接另存为$comiclink或其他内容。脚本将 一次执行每个超链接 转到$comiclink的超链接,并根据需要从页面中删除内容 在那一页的某个分区的内容上。例如:
- 将定义的div中的漫画标题复制并保存到$title中
- 将定义的div中以前和将来的标题超链接复制并保存到$othertitles中
注意:$othertitles将循环并从1开始相同的进程本身。 - 将定义的div中的所有图像保存并下载到$images
- 将定义的div中的所有内容复制并保存到$content$然后对内容进行分解
并根据其中的内容进行拆分。例如:
- 店内:$date
- 格式:$格式
- UPC:$UPC
- 价格:$Price
- 故事:故事
- $relatedinfo到$relatedimages中的图像
- $relatedinfo到$relatedcontent中的内容
- $relatedinfo内的链接到$relatedlink$relatedlink将循环关闭并从1重新启动此进程本身
function scraping_comic()
{
// create HTML DOM
$html = file_get_html('http://page-on-site-to-scrape.com');
// get block to scrape
foreach($html->find('li.browse_result') as $article)
{
// get title from block
$item['title'] = trim($article->find('h4', 0)->find('span',0)->plaintext);
// get title url from block
$item['title_url'] = trim($article->find('h4', 0)->find('a.grid-hidden',0)->href);
// get image from block
$item['image_url'] = trim($article->find('img.main_thumb',0)->src);
// get details from block
$item['details'] = trim($article->find('p.browse_result_description_release', 0)->plaintext);
// get sale info from block
$item['on_sale'] = trim($article->find('.browse_comics_release_dates', 0)->plaintext);
$ret[] = $item;
}
// clean up memory
$html->clear();
unset($html);
return $ret;
}
// ===== The Code ====
$ret = scraping_comic();
if ( ! empty($ret))
{
// place main url for instance when hyperlinks and image srcs don't use the full path.
$scrape = 'http://site-to-scrape.com';
foreach($ret as $v)
{
echo '<p><a href="'.$scrape.$v['title_url'].'">'.$v['title'].'</a></p>';
echo '<p><img src="'.$v['image_url'].'"></p>';
echo '<p>'.$v['details'].'</p>';
echo '<p> '.$v['on_sale'].'</p>';
}
}
else { echo 'Could not scrape page!'; }
?>
function scraping_comic()
{
//创建HTML DOM
$html=file\u get\u html('http://page-on-site-to-scrape.com');
//让积木刮擦
foreach($html->find('li.browse\u result')作为$article)
{
//从块中获取标题
$item['title']=trim($article->find('h4',0)->find('span',0)->明文);
//从块中获取标题url
$item['title\u url']=trim($article->find('h4',0)->find('a.grid-hidden',0)->href);
//从块中获取图像
$item['image\u url']=trim($article->find('img.main\u thumb',0)->src);
//从block获取详细信息
$item['details']=trim($article->find('p.browse\u result\u description\u release',0)->明文);
//从block获取销售信息
$item['on_sale']=trim($article->find('.browse_cromics\u release\u dates',0)->纯文本);
$ret[]=$item;
}
//清理内存
$html->clear();
未结算($html);
返回$ret;
}
//=======代码====
$ret=刮削_漫画();
如果(!空($ret))
{
//例如,当超链接和图像SRC不使用完整路径时,放置主url。
$scrape=http://site-to-scrape.com';
foreach($v)
{
回声“”;
回声“”;
回音“”.$v['details']”。;
回音“”.$v[“出售”]。;
}
}
否则{echo'无法刮页!';}
?>
通常,不这是不合法的。现在共享数据的公司将实现一个API,您可以在应用程序中调用和使用该API(取决于他们的使用条款和版权政策)。他们不喜欢你提出自动请求,这会使他们的服务器陷入困境,并破坏他们的带宽
也就是说,通常情况下,产品信息可以从其他来源获得,比如亚马逊,它确实有一个API
您正在描述的这个项目有很多工作要做,基本上是定制WordPress CMS,对于没有任何编程经验的人来说,这并不是一件小事。你可能想考虑雇用一个自由职业者或许多其他自由职业的董事会之一。 < P>典型地,<强>不<强>这是不合法的。现在共享数据的公司将实现一个API,您可以在应用程序中调用和使用它(取决于他们的使用条款和合作伙伴)