Web crawler 网络爬网评估?

Web crawler 网络爬网评估?,web-crawler,Web Crawler,我在聚焦网络爬网(也称为主题网络爬网)中看到,评估指标-收获率-定义为:在爬网“t”页面后,收获率=相关页面/被爬网页面的数量(t) 例如,在抓取100个页面后,我得到了80个真正的肯定值,那么此时抓取程序的收获率是0.9。但是爬虫程序可能忽略了一些与爬网域完全相关但未计入评估比率的爬网页面。这是什么?我们是否可以改进评估指标,以包括完全相关的缺失页面?这一点很重要吗?聚焦爬网最基本的评估是精确性和召回率,可以将其聚合为F度量 如果您对页面与特定关键字的相关性更感兴趣,则需要使用tf/idf

我在聚焦网络爬网(也称为主题网络爬网)中看到,评估指标-收获率-定义为:在爬网“t”页面后,收获率=相关页面/被爬网页面的数量(t)


例如,在抓取100个页面后,我得到了80个真正的肯定值,那么此时抓取程序的收获率是0.9。但是爬虫程序可能忽略了一些与爬网域完全相关但未计入评估比率的爬网页面。这是什么?我们是否可以改进评估指标,以包括完全相关的缺失页面?这一点很重要吗?

聚焦爬网最基本的评估是精确性和召回率,可以将其聚合为F度量

如果您对页面与特定关键字的相关性更感兴趣,则需要使用tf/idf(术语频率–反向文档频率)


*idf

但他们都会根据爬网的集合进行评估,对吗?但是那些没有被爬网的相关页面呢?我的意思是,我可能会得到很高的评价分数,但可能是我没有爬过一些非常相关的页面。所以这是爬虫程序的一个问题,在评估中没有显示。解决方案是什么?编辑我的答案以显示如何评估页面与特定关键字的相关性。嘿,不,你没有明白我的问题。请阅读我上面的评论好吧,恐怕我当时没有明白你的问题。试着编辑它使它更清晰,然后你可能会得到一个更合适的答案。