Php 最好是尝试一个超大屏幕刮板,还是将其分为不同站点的刮板?
我会解释我的情况 我们的社交媒体经理(yay)突然想要从大约40个网站的列表中获取关于我们公司的信息,例如,列表中有很多评论网站 (我已经阅读了大量的教程和问题,但仍然)我的问题是:Php 最好是尝试一个超大屏幕刮板,还是将其分为不同站点的刮板?,php,web-crawler,web-scraping,Php,Web Crawler,Web Scraping,我会解释我的情况 我们的社交媒体经理(yay)突然想要从大约40个网站的列表中获取关于我们公司的信息,例如,列表中有很多评论网站 (我已经阅读了大量的教程和问题,但仍然)我的问题是: 是否有可能建立一个通用的刮板,将工作在所有这些网站或我需要一个单独的刮板为每个网站 我想我知道如何解析一个单独的网页,但是你怎么做呢?比如说,有一个网站结构是review-website.com/company-name,页面上有标题和评论片段,然后链接到实际的整页评论 i、 e.在多个站点上爬行和抓取多个页面。有
review-website.com/company-name
,页面上有标题和评论片段,然后链接到实际的整页评论Facebook-www.Facebook.com
社会提及-www.socialmedion.com
Youtube-www.Youtube.com
Qype-www.Qype.co.uk
省钱专家-www.moneysavingexpert.co.uk
审查中心-www.reviewcentre.com
Dooyoo-www.Dooyoo.co.uk
Yelp-www.Yelp.co.uk
Ciao-www.Ciao.co.uk
All in London-www.allinlondon.co.uk
触摸本地-www.touchlocal.com
Tipped-www.Tipped.co.uk
什么诊所-www.whatclinic.com
Wahanda-www.Wahanda.com
沿着我的街道-www.upmystreet.com
Lasik-Eyes-www.Lasik-Eyes.co.uk/
Lasik-Eyes(论坛)-论坛.Lasik-Eyes.co.uk/default.asp
激光眼科手术-www.Laser-Eye-Surgery-review.com/
Treatment Saver-www.treatmentsaver.com/lasereyesurgery
眼科手术比较-www.eyesurgerycompare.co.uk/best-uk激光眼科手术诊所
好外科医生指南-www.thegoodsurgeonguide.co.uk/
私人健康-www.privatehealth.co.uk/hospitaltreatment/find-a-treatment/laser眼科手术
激光眼科手术维基-www.lasereyesurgerywiki.co.uk
pcadvisor-www.pcadvisor.co.uk/forums/2/consumerwatch/
Scoot-www.Scoot.co.uk
整容手术评论-www.Cosmetic-Surgery-Reviews.co.uk
lasikreviews-www.lasikreviews.co.uk
激光眼科手术费用-www.lasereyesurgerycosts.co.uk
谁给我打电话-www.whocallsme.com
治疗顾问-www.treatmentadvisor.com/
投诉委员会-http://www.complaintsboard.com
托鲁纳-http://uk.toluna.com/
Mums-Net-http://www.mumsnet.com
Boards.ie-http://www.boards.ie
AV论坛-http://www.avforums.com
Magic Mum-http://www.magicmum.com
这实际上取决于你面对的是什么样的网站和数据 选项1:基于DOM/XPATH的 如果需要解析表和非常详细的内容,则需要使用单独的算法解析每个站点。一种方法是将每个特定站点解析为DOM表示,并根据XPATH寻址每个值。这将需要一段时间,并且会受到结构变化的影响,如果你不得不用它来清理这些站点,那么你将花费超过一个上午的时间 选项2:基于密度的 但是,如果您需要解析博客文章之类的内容,并且您可能只想提取文章文本,那么有非常好的基于密度的算法,可以跨HTML结构更改工作。这里描述了其中之一: 此处提供了一个实现: 您必须将其移植到php。对于博客和新闻网站来说,这是一种非常有效的方式 选项3:务实 如果您不关心布局和结构,只希望提供数据。您可以下载内容并尝试单独剥离标签。但是,这将在生成的文本中产生大量噪声 更新 更新帖子后,您可以按照以下顺序操作: