Php 最好是尝试一个超大屏幕刮板,还是将其分为不同站点的刮板?

Php 最好是尝试一个超大屏幕刮板,还是将其分为不同站点的刮板?,php,web-crawler,web-scraping,Php,Web Crawler,Web Scraping,我会解释我的情况 我们的社交媒体经理(yay)突然想要从大约40个网站的列表中获取关于我们公司的信息,例如,列表中有很多评论网站 (我已经阅读了大量的教程和问题,但仍然)我的问题是: 是否有可能建立一个通用的刮板,将工作在所有这些网站或我需要一个单独的刮板为每个网站 我想我知道如何解析一个单独的网页,但是你怎么做呢?比如说,有一个网站结构是review-website.com/company-name,页面上有标题和评论片段,然后链接到实际的整页评论 i、 e.在多个站点上爬行和抓取多个页面。有

我会解释我的情况

我们的社交媒体经理(yay)突然想要从大约40个网站的列表中获取关于我们公司的信息,例如,列表中有很多评论网站

(我已经阅读了大量的教程和问题,但仍然)我的问题是:

  • 是否有可能建立一个通用的刮板,将工作在所有这些网站或我需要一个单独的刮板为每个网站

  • 我想我知道如何解析一个单独的网页,但是你怎么做呢?比如说,有一个网站结构是
    review-website.com/company-name
    ,页面上有标题和评论片段,然后链接到实际的整页评论

  • i、 e.在多个站点上爬行和抓取多个页面。有些网站比其他网站“更容易”,因为它们有专门的网页,如前面提到的URL,但有些网站是论坛等,没有特定的结构,只是碰巧提到了我们的公司名称,所以我不知道如何获得这些网站的相关信息

  • 创建这些网站所花费的时间是否证明社交媒体经理可以自己手动搜索这些网站?特别是考虑到任何一个网站上的HTML更改都可能最终破坏刮板
  • 我真的不认为这是一个好主意,但我的直线经理似乎认为为所有这些网站写一个刮板需要花费一个上午的时间,我不知道如何做

    更新

    非常感谢您迄今为止的回答,我还想提供一份网站列表,以澄清我认为这是一项极端的任务:

    Facebook-www.Facebook.com

    社会提及-www.socialmedion.com

    Youtube-www.Youtube.com

    Qype-www.Qype.co.uk

    省钱专家-www.moneysavingexpert.co.uk

    审查中心-www.reviewcentre.com

    Dooyoo-www.Dooyoo.co.uk

    Yelp-www.Yelp.co.uk

    Ciao-www.Ciao.co.uk

    All in London-www.allinlondon.co.uk

    触摸本地-www.touchlocal.com

    Tipped-www.Tipped.co.uk

    什么诊所-www.whatclinic.com

    Wahanda-www.Wahanda.com

    沿着我的街道-www.upmystreet.com

    Lasik-Eyes-www.Lasik-Eyes.co.uk/

    Lasik-Eyes(论坛)-论坛.Lasik-Eyes.co.uk/default.asp

    激光眼科手术-www.Laser-Eye-Surgery-review.com/

    Treatment Saver-www.treatmentsaver.com/lasereyesurgery

    眼科手术比较-www.eyesurgerycompare.co.uk/best-uk激光眼科手术诊所

    好外科医生指南-www.thegoodsurgeonguide.co.uk/

    私人健康-www.privatehealth.co.uk/hospitaltreatment/find-a-treatment/laser眼科手术

    激光眼科手术维基-www.lasereyesurgerywiki.co.uk

    pcadvisor-www.pcadvisor.co.uk/forums/2/consumerwatch/

    Scoot-www.Scoot.co.uk

    整容手术评论-www.Cosmetic-Surgery-Reviews.co.uk

    lasikreviews-www.lasikreviews.co.uk

    激光眼科手术费用-www.lasereyesurgerycosts.co.uk

    谁给我打电话-www.whocallsme.com

    治疗顾问-www.treatmentadvisor.com/

    投诉委员会-http://www.complaintsboard.com

    托鲁纳-http://uk.toluna.com/

    Mums-Net-http://www.mumsnet.com

    Boards.ie-http://www.boards.ie

    AV论坛-http://www.avforums.com

    Magic Mum-http://www.magicmum.com

  • 我会为每个站点创建一个scraper,但创建一个具有通用功能的库(例如打开页面、转换为DOM、报告错误、存储结果等)
  • 刮取时尽量避免使用正则表达式。一个小的变化将停止刮削工作。改用网站DOM结构(XPaths?)。更可靠
  • 告诉你的老板这会花很多时间
  • 祝你好运

  • 这实际上取决于你面对的是什么样的网站和数据

    选项1:基于DOM/XPATH的

    如果需要解析表和非常详细的内容,则需要使用单独的算法解析每个站点。一种方法是将每个特定站点解析为DOM表示,并根据XPATH寻址每个值。这将需要一段时间,并且会受到结构变化的影响,如果你不得不用它来清理这些站点,那么你将花费超过一个上午的时间

    选项2:基于密度的

    但是,如果您需要解析博客文章之类的内容,并且您可能只想提取文章文本,那么有非常好的基于密度的算法,可以跨HTML结构更改工作。这里描述了其中之一:

    此处提供了一个实现:

    您必须将其移植到php。对于博客和新闻网站来说,这是一种非常有效的方式

    选项3:务实

    如果您不关心布局和结构,只希望提供数据。您可以下载内容并尝试单独剥离标签。但是,这将在生成的文本中产生大量噪声

    更新

    更新帖子后,您可以按照以下顺序操作:

  • 检查刮取哪一页是非法的。在这张单子上肯定有一些是不允许你去刮的

  • 你将需要比一天多得多的时间。我会谈论这一点以及项目领导的法律问题

  • 选择一个选项