Rss 如何爬行饲料

Rss 如何爬行饲料,rss,web-crawler,feed,atom-feed,Rss,Web Crawler,Feed,Atom Feed,我的应用程序需要跟踪RSS/Atom提要,并将新条目保存到数据库中。我的问题是,确定提要中的条目是否已被爬网的最可靠方法是什么? 我使用模块来解析提要。我当前的实现保留了feed.entry[i]的最新值的记录。当爬网时,如果updated\u parsed条目的值大于记录的值,则该条目保存在数据库中。这里的问题是,许多提要没有发布日期或更新日期。您应该主要通过引用条目的来确定是否已经对条目进行了爬网(在没有的情况下,返回到),而与日期相关的任何内容都只是作为辅助分析

我的应用程序需要跟踪RSS/Atom提要,并将新条目保存到数据库中。我的问题是,确定提要中的条目是否已被爬网的最可靠方法是什么?


我使用模块来解析提要。我当前的实现保留了
feed.entry[i]的最新值的记录。当爬网时,如果
updated\u parsed
条目的值大于记录的值,则该条目保存在数据库中。这里的问题是,许多提要没有发布日期或更新日期。

您应该主要通过引用条目的
来确定是否已经对条目进行了爬网(在没有
的情况下,返回到
),而与日期相关的任何内容都只是作为辅助分析