Python 剥离网页中不相关的部分

Python 剥离网页中不相关的部分,python,screen-scraping,web-scraping,Python,Screen Scraping,Web Scraping,有没有API或系统化的方法来剥离网页中不相关的部分,同时通过Python将其删除?例如,就拿这一页来说——唯一重要的部分是问题和答案,而不是侧栏栏、标题等。人们可以猜到类似的事情,但有什么聪明的方法吗?一般来说,没有。在特定情况下,如果你对你正在抓取的网站的结构有所了解,您可以使用类似于操作DOM的工具。有一种来自bookmarklet的方法,至少有两种Python实现可用: 一种方法是比较共享同一模板的多个网页的结构。在这种情况下,您将比较多个SO问题。然后,您可以确定哪些内容是静态的(

有没有API或系统化的方法来剥离网页中不相关的部分,同时通过Python将其删除?例如,就拿这一页来说——唯一重要的部分是问题和答案,而不是侧栏栏、标题等。人们可以猜到类似的事情,但有什么聪明的方法吗?

一般来说,没有。在特定情况下,如果你对你正在抓取的网站的结构有所了解,您可以使用类似于操作DOM的工具。

有一种来自bookmarklet的方法,至少有两种Python实现可用:


一种方法是比较共享同一模板的多个网页的结构。在这种情况下,您将比较多个SO问题。然后,您可以确定哪些内容是静态的(无用的)或动态的(有用的)


该字段称为包装诱导。不幸的是,这比听起来更难

这个git hub项目解决了您的问题,但它是用Java实现的。可能值得一看:

有一些启发式方法可以识别文档的重要部分。其中一些使用NLP,一些使用渲染元素的大小,我确信这两种方法和其他风格完全混合在一起。我不知道这些算法的名字,但它们确实存在。无论哪种方式,漂亮的汤+1。对于新手来说,这绝对是一条路。