Parsing 寻找主要内容的启发式方法

Parsing 寻找主要内容的启发式方法,parsing,nlp,web-crawler,Parsing,Nlp,Web Crawler,想知道是否有人能为我指出学术论文的方向,或是启发式方法的相关实现,以找到特定网页的真正内容 显然,这不是一项琐碎的任务,因为问题描述非常模糊,但我认为我们都对页面的主要内容有一个大致的理解 例如,它可能包括新闻文章的故事文本,但可能不包括任何导航元素、法律免责声明、相关故事摘要、评论等。文章标题、日期、作者姓名和其他元数据属于灰色类别 我认为这种方法的应用价值是巨大的,并且预计谷歌会在他们的搜索算法中以某种方式使用它,所以在我看来,这一主题在过去曾被学术界讨论过 任何参考资料?一种看待这一问题的

想知道是否有人能为我指出学术论文的方向,或是启发式方法的相关实现,以找到特定网页的真正内容

显然,这不是一项琐碎的任务,因为问题描述非常模糊,但我认为我们都对页面的主要内容有一个大致的理解

例如,它可能包括新闻文章的故事文本,但可能不包括任何导航元素、法律免责声明、相关故事摘要、评论等。文章标题、日期、作者姓名和其他元数据属于灰色类别

我认为这种方法的应用价值是巨大的,并且预计谷歌会在他们的搜索算法中以某种方式使用它,所以在我看来,这一主题在过去曾被学术界讨论过


任何参考资料?

一种看待这一问题的方法是将其视为信息提取问题

因此,一种高级算法是收集相同页面类型的多个示例,并推导页面不同部分的解析(或提取)规则(这可能是主要主题)。直觉是,公共样板(页眉、页脚等)和广告最终将出现在这些网页的多个示例上,因此通过对其中一些示例的培训,您可以快速可靠地开始识别此样板/附加代码,然后忽略它。这不是万无一失的,但这也是商业和学术网络抓取技术的基础,如RoadRunner:

引文如下:

瓦尔特·克雷森齐,吉安萨尔瓦托尔麦加, 保罗·梅里亚多:跑路者:走向 大型数据库数据的自动提取 网站。VLDB 2001:109-118

还有一项被广泛引用的开采技术调查:

阿尔贝托·H·F·莱德,伯蒂埃·A。 里贝罗·内托,阿尔蒂格兰S.达席尔瓦, 朱丽安娜·S·泰克谢拉,一份关于 web数据提取工具,ACM SIGMOD 记录,v.31 n.2,2002年6月 [doi>10.1145/565117.565137]