Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/301.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/vba/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Python从web文章中查找结构_Python - Fatal编程技术网

使用Python从web文章中查找结构

使用Python从web文章中查找结构,python,Python,我正在寻找一些Python工具,它可以帮助我确定文章网站的内容结构,例如。我使用样板删除库(Boilerpipe)清除网页上不需要的东西(横幅、链接、图片等)。 现在,当我只有相关内容时,我想自动确定什么字符串是标题、作者、日期、文章更新日期、文章本身是什么。问题是,我不仅要将它用于透明的文章页面,这些页面的大部分信息都是HTML标记,比如Title。我希望能够从标签上确定它,比如2011年11月28日约翰·库萨克关于叙利亚冲突的标签。 有什么工具可以帮我吗?刮皮不是用来做那种东西的吗 使用以下

我正在寻找一些Python工具,它可以帮助我确定文章网站的内容结构,例如。我使用样板删除库(Boilerpipe)清除网页上不需要的东西(横幅、链接、图片等)。 现在,当我只有相关内容时,我想自动确定什么字符串是标题、作者、日期、文章更新日期、文章本身是什么。问题是,我不仅要将它用于透明的文章页面,这些页面的大部分信息都是HTML标记,比如
Title
。我希望能够从标签上确定它,比如2011年11月28日约翰·库萨克关于叙利亚冲突的标签。
有什么工具可以帮我吗?

刮皮不是用来做那种东西的吗

使用以下“工具”,您可以轻松地从文章中获取内容:

  • 刮痧(推荐,但有更大的学习曲线)
  • 报纸(立即提供标题、作者、文本、图像、视频等)
  • 鹅提取器(类似于报纸)

  • Scrapy可能是我正在寻找的工具,但它不是很容易学习或让它做我想要的。有关于如何使用scrapy确定标题、作者等的提示吗?