Parsing 寻找主要内容的启发式方法_Parsing_Nlp_Web Crawler

Parsing 寻找主要内容的启发式方法

parsing nlp web-crawler

Parsing 寻找主要内容的启发式方法,parsing,nlp,web-crawler,Parsing,Nlp,Web Crawler,想知道是否有人能为我指出学术论文的方向，或是启发式方法的相关实现，以找到特定网页的真正内容显然，这不是一项琐碎的任务，因为问题描述非常模糊，但我认为我们都对页面的主要内容有一个大致的理解例如，它可能包括新闻文章的故事文本，但可能不包括任何导航元素、法律免责声明、相关故事摘要、评论等。文章标题、日期、作者姓名和其他元数据属于灰色类别我认为这种方法的应用价值是巨大的，并且预计谷歌会在他们的搜索算法中以某种方式使用它，所以在我看来，这一主题在过去曾被学术界讨论过任何参考资料？一种看待这一问题的

想知道是否有人能为我指出学术论文的方向，或是启发式方法的相关实现，以找到特定网页的真正内容

显然，这不是一项琐碎的任务，因为问题描述非常模糊，但我认为我们都对页面的主要内容有一个大致的理解

例如，它可能包括新闻文章的故事文本，但可能不包括任何导航元素、法律免责声明、相关故事摘要、评论等。文章标题、日期、作者姓名和其他元数据属于灰色类别

我认为这种方法的应用价值是巨大的，并且预计谷歌会在他们的搜索算法中以某种方式使用它，所以在我看来，这一主题在过去曾被学术界讨论过

任何参考资料？

一种看待这一问题的方法是将其视为信息提取问题

因此，一种高级算法是收集相同页面类型的多个示例，并推导页面不同部分的解析（或提取）规则（这可能是主要主题）。直觉是，公共样板（页眉、页脚等）和广告最终将出现在这些网页的多个示例上，因此通过对其中一些示例的培训，您可以快速可靠地开始识别此样板/附加代码，然后忽略它。这不是万无一失的，但这也是商业和学术网络抓取技术的基础，如RoadRunner：

引文如下：

瓦尔特·克雷森齐，吉安萨尔瓦托尔麦加，保罗·梅里亚多：跑路者：走向大型数据库数据的自动提取网站。VLDB 2001:109-118

还有一项被广泛引用的开采技术调查：

阿尔贝托·H·F·莱德，伯蒂埃·A。里贝罗·内托，阿尔蒂格兰S.达席尔瓦，朱丽安娜·S·泰克谢拉，一份关于 web数据提取工具，ACM SIGMOD 记录，v.31 n.2，2002年6月 [doi>10.1145/565117.565137]