Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/wordpress/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Wordpress 抓取漫画书网站的产品信息_Wordpress_Automation_Screen Scraping - Fatal编程技术网

Wordpress 抓取漫画书网站的产品信息

Wordpress 抓取漫画书网站的产品信息,wordpress,automation,screen-scraping,Wordpress,Automation,Screen Scraping,我正在为一位老朋友制作一个基于WordPress平台的漫画书网站。我希望能够有一个脚本,去各个出版商的网站,并在数据拉。我是编程新手,我读过很多不同的选择,只是不知道从哪里开始。首先,从这些网站获取这些内容是否合法?其次,这里有一个我想做的例子 页面显示本月的结果。从中复制所有链接 在相应的div中指向漫画书的那一页 细节。将每个超链接另存为$comiclink或其他内容。脚本将 一次执行每个超链接 转到$comiclink的超链接,并根据需要从页面中删除内容 在那一页的某个分区的内容上。例如:

我正在为一位老朋友制作一个基于WordPress平台的漫画书网站。我希望能够有一个脚本,去各个出版商的网站,并在数据拉。我是编程新手,我读过很多不同的选择,只是不知道从哪里开始。首先,从这些网站获取这些内容是否合法?其次,这里有一个我想做的例子

  • 页面显示本月的结果。从中复制所有链接 在相应的div中指向漫画书的那一页 细节。将每个超链接另存为$comiclink或其他内容。脚本将 一次执行每个超链接

  • 转到$comiclink的超链接,并根据需要从页面中删除内容 在那一页的某个分区的内容上。例如:

    • 将定义的div中的漫画标题复制并保存到$title中
    • 将定义的div中以前和将来的标题超链接复制并保存到$othertitles中

      注意:$othertitles将循环并从1开始相同的进程本身。

    • 将定义的div中的所有图像保存并下载到$images
    • 将定义的div中的所有内容复制并保存到$content$然后对内容进行分解 并根据其中的内容进行拆分。例如:

      • 店内:$date
      • 格式:$格式
      • UPC:$UPC
      • 价格:$Price
      • 故事:故事
  • 复制并保存定义的div超链接并保存到$serieinfo中

  • 复制并保存定义的div$relatedinfo,然后将其分解

    • $relatedinfo到$relatedimages中的图像
    • $relatedinfo到$relatedcontent中的内容
    • $relatedinfo内的链接到$relatedlink$relatedlink将循环关闭并从1重新启动此进程本身
  • 现在所有的东西都被分解成了自己的碎片。我希望WordPress自动创建一篇帖子,然后开始将所有这些信息分配到帖子中。像这样工作

  • 检查是否存在具有相同$title的现有文章(如果不存在),将$title放置在文章标题和页面名称中。如果存在,请中止脚本并转到下一个脚本
  • 从$title中删除数字和字母字符,并检查类别是否存在(如果不存在);创建它并分配给post。如果存在,则为职位分配类别
  • 检查是否存在值为$format的现有类别(如果存在),将其分配给帖子,如果不存在,则创建并将类别分配给帖子
  • 将从$image下载的图像上载到此帖子
  • 检查包含“封面”字样的图像,并指定为特色图像
  • 这整件事也是怎么执行的。我不希望这个运行24/7-只是一个星期一次,我希望它自己执行,并自动到有问题的网站,刮内容和创建网页

    我不是要你们帮我把这该死的事情写出来;虽然我绝对不会反对!只要帮我指出正确的方向就行了。在过去的一天里,我大概读了30多篇关于拉动内容的文章,从中我可以看出有很多选择,我只是不知道从哪里开始,或者如何让球朝着正确的方向移动

    更新代码

    注意:所以我成功地复制了每个块的内容和路径,而不是下载图像,只是从当前位置回显它们。下一步实际上是自动化在wordpress中创建post的过程,以便将数据转储到其中

    function scraping_comic()
    {
    // create HTML DOM
    $html = file_get_html('http://page-on-site-to-scrape.com');
    
        // get block to scrape
        foreach($html->find('li.browse_result') as $article)
    {
        // get title from block
        $item['title'] = trim($article->find('h4', 0)->find('span',0)->plaintext);
        // get title url from block
        $item['title_url'] = trim($article->find('h4', 0)->find('a.grid-hidden',0)->href);
        // get image from block
        $item['image_url'] = trim($article->find('img.main_thumb',0)->src);
        // get details from block
        $item['details'] = trim($article->find('p.browse_result_description_release', 0)->plaintext);
        // get sale info from block
        $item['on_sale'] = trim($article->find('.browse_comics_release_dates', 0)->plaintext);
    
    $ret[] = $item;
    }
    
    // clean up memory
    $html->clear();
    unset($html);
    
    return $ret;
    }
    
    
    // ===== The Code ====
    
    $ret = scraping_comic();
    
    if ( ! empty($ret))
    {
    
    // place main url for instance when hyperlinks and image srcs don't use the full path.
    $scrape = 'http://site-to-scrape.com';
    
    foreach($ret as $v)
    {
        echo '<p><a href="'.$scrape.$v['title_url'].'">'.$v['title'].'</a></p>';
        echo '<p><img src="'.$v['image_url'].'"></p>';
        echo '<p>'.$v['details'].'</p>';
        echo '<p> '.$v['on_sale'].'</p>';
    }
    
    }
        else { echo 'Could not scrape page!'; }
    ?>
    
    function scraping_comic()
    {
    //创建HTML DOM
    $html=file\u get\u html('http://page-on-site-to-scrape.com');
    //让积木刮擦
    foreach($html->find('li.browse\u result')作为$article)
    {
    //从块中获取标题
    $item['title']=trim($article->find('h4',0)->find('span',0)->明文);
    //从块中获取标题url
    $item['title\u url']=trim($article->find('h4',0)->find('a.grid-hidden',0)->href);
    //从块中获取图像
    $item['image\u url']=trim($article->find('img.main\u thumb',0)->src);
    //从block获取详细信息
    $item['details']=trim($article->find('p.browse\u result\u description\u release',0)->明文);
    //从block获取销售信息
    $item['on_sale']=trim($article->find('.browse_cromics\u release\u dates',0)->纯文本);
    $ret[]=$item;
    }
    //清理内存
    $html->clear();
    未结算($html);
    返回$ret;
    }
    //=======代码====
    $ret=刮削_漫画();
    如果(!空($ret))
    {
    //例如,当超链接和图像SRC不使用完整路径时,放置主url。
    $scrape=http://site-to-scrape.com';
    foreach($v)
    {
    回声“

    ”; 回声“

    ”; 回音“”.$v['details']”。

    ; 回音“”.$v[“出售”]。

    ; } } 否则{echo'无法刮页!';} ?>
    通常,这是不合法的。现在共享数据的公司将实现一个API,您可以在应用程序中调用和使用该API(取决于他们的使用条款和版权政策)。他们不喜欢你提出自动请求,这会使他们的服务器陷入困境,并破坏他们的带宽

    也就是说,通常情况下,产品信息可以从其他来源获得,比如亚马逊,它确实有一个API


    您正在描述的这个项目有很多工作要做,基本上是定制WordPress CMS,对于没有任何编程经验的人来说,这并不是一件小事。你可能想考虑雇用一个自由职业者或许多其他自由职业的董事会之一。

    < P>典型地,<强>不<强>这是不合法的。现在共享数据的公司将实现一个API,您可以在应用程序中调用和使用它(取决于他们的使用条款和合作伙伴)