Web 爬虫只提取内容,不包括照片/广告等';

Web 爬虫只提取内容,不包括照片/广告等';,web,web-crawler,Web,Web Crawler,任何人都知道一个好的开源爬虫程序,我可以用它只提取页面内容,也就是只提取没有照片/广告/菜单等的文本?如果你知道HTML中的广告是什么样子的,可以帮助你做到这一点。它是一个非常灵活的开源网络爬虫。当您配置导入器模块时,您可以告诉它在某些标记之前和之后剥离文本块,或者剥离已知标记之间的内容 为了给您一个想法,如果您知道某个网站在这些标签之间显示其广告: <div class="myAdd">... add here ...</div> 。。。在这里添加。。。 然后,相关

任何人都知道一个好的开源爬虫程序,我可以用它只提取页面内容,也就是只提取没有照片/广告/菜单等的文本?

如果你知道HTML中的广告是什么样子的,可以帮助你做到这一点。它是一个非常灵活的开源网络爬虫。当您配置导入器模块时,您可以告诉它在某些标记之前和之后剥离文本块,或者剥离已知标记之间的内容

为了给您一个想法,如果您知道某个网站在这些标签之间显示其广告:

<div class="myAdd">... add here ...</div>
。。。在这里添加。。。
然后,相关的进口商部分将如下所示:

<transformer class="com.norconex.importer.transformer.impl.StripBetweenTransformer"
      inclusive="true">
  <stripBetween>
      <start><![CDATA[<div class="myAdd">]]></start>
      <end><![CDATA[</div>]]></end>
  </stripBetween>
</transformer>

]]>
]]>

您可以使用相同的原则剥离页眉和页脚。如果你不想抓取图像,你可以很容易地过滤掉它们

你可以从Scrapinghub.com上试试Portia