使用Python从web文章中查找结构
我正在寻找一些Python工具,它可以帮助我确定文章网站的内容结构,例如。我使用样板删除库(Boilerpipe)清除网页上不需要的东西(横幅、链接、图片等)。 现在,当我只有相关内容时,我想自动确定什么字符串是标题、作者、日期、文章更新日期、文章本身是什么。问题是,我不仅要将它用于透明的文章页面,这些页面的大部分信息都是HTML标记,比如使用Python从web文章中查找结构,python,Python,我正在寻找一些Python工具,它可以帮助我确定文章网站的内容结构,例如。我使用样板删除库(Boilerpipe)清除网页上不需要的东西(横幅、链接、图片等)。 现在,当我只有相关内容时,我想自动确定什么字符串是标题、作者、日期、文章更新日期、文章本身是什么。问题是,我不仅要将它用于透明的文章页面,这些页面的大部分信息都是HTML标记,比如Title。我希望能够从标签上确定它,比如2011年11月28日约翰·库萨克关于叙利亚冲突的标签。 有什么工具可以帮我吗?刮皮不是用来做那种东西的吗 使用以下
Title
。我希望能够从标签上确定它,比如2011年11月28日约翰·库萨克关于叙利亚冲突的标签。
有什么工具可以帮我吗?刮皮不是用来做那种东西的吗 使用以下“工具”,您可以轻松地从文章中获取内容:
Scrapy可能是我正在寻找的工具,但它不是很容易学习或让它做我想要的。有关于如何使用scrapy确定标题、作者等的提示吗?