Php 检查db是否不';我没有指定的项目

Php 检查db是否不';我没有指定的项目,php,web-scraping,Php,Web Scraping,我想抓取博客的帖子并将它们存储到我的数据库中。对于调度废料,我将在服务器上执行conjob。但是,我在正确处理流程方面遇到了问题。我不想重新刮除所有内容,我想编写脚本检查是否有新帖子,然后将其保存到我的数据库中 我的挑战是不同的博客可能有不同的模式,我认为其中一种方法是在数据库中获取日期和最新帖子的日期。但是如果帖子没有日期呢?比较字符串?这是可靠的方法吗 为什么不使用他们的RSS提要?大多数博客都有一个,如果有,就不需要刮 RSS是一个简单的XML文件,您可以读取它,并将其与现有文件(如RSS

我想抓取博客的帖子并将它们存储到我的数据库中。对于调度废料,我将在服务器上执行conjob。但是,我在正确处理流程方面遇到了问题。我不想重新刮除所有内容,我想编写脚本检查是否有新帖子,然后将其保存到我的数据库中


我的挑战是不同的博客可能有不同的模式,我认为其中一种方法是在数据库中获取日期和最新帖子的日期。但是如果帖子没有日期呢?比较字符串?这是可靠的方法吗

为什么不使用他们的RSS提要?大多数博客都有一个,如果有,就不需要刮

RSS是一个简单的XML文件,您可以读取它,并将其与现有文件(如RSS阅读器)进行比较


如果他们的整个帖子在RSS中看不到(可能也看不到),那么只要按照提要中的URL来获取他们的帖子就可以了。

所以你建议我删除他们的RSS?是的,这使我的生活更容易,因为有图书馆获得rss数据,但我想把帖子保存到我的数据库中。此外,其中一些人还破坏了rss。rss让您大致了解何时在哪里添加帖子以及它们的URL是什么。然后,您可以使用新帖子的url,获取帖子,保存它,然后继续。若有人破坏了RSS或者根本并没有,那个么你们可以向他们索要api,或者正常地删除他们。但我的观点是——你不必每次在每个博客上都这么做,因为那里有RSS,我完全明白你的意思,但有一些隐藏的信息我无法从他们的RSS中获得。