Web 爬虫只提取内容，不包括照片/广告等'；_Web_Web Crawler

Web 爬虫只提取内容，不包括照片/广告等'；

web web-crawler

Web 爬虫只提取内容，不包括照片/广告等'；,web,web-crawler,Web,Web Crawler,任何人都知道一个好的开源爬虫程序，我可以用它只提取页面内容，也就是只提取没有照片/广告/菜单等的文本？如果你知道HTML中的广告是什么样子的，可以帮助你做到这一点。它是一个非常灵活的开源网络爬虫。当您配置导入器模块时，您可以告诉它在某些标记之前和之后剥离文本块，或者剥离已知标记之间的内容为了给您一个想法，如果您知道某个网站在这些标签之间显示其广告： <div class="myAdd">... add here ...</div> 。。。在这里添加。。。然后，相关

任何人都知道一个好的开源爬虫程序，我可以用它只提取页面内容，也就是只提取没有照片/广告/菜单等的文本？

如果你知道HTML中的广告是什么样子的，可以帮助你做到这一点。它是一个非常灵活的开源网络爬虫。当您配置导入器模块时，您可以告诉它在某些标记之前和之后剥离文本块，或者剥离已知标记之间的内容

为了给您一个想法，如果您知道某个网站在这些标签之间显示其广告：

<div class="myAdd">... add here ...</div>

。。。在这里添加。。。

然后，相关的进口商部分将如下所示：

<transformer class="com.norconex.importer.transformer.impl.StripBetweenTransformer"
      inclusive="true">
  <stripBetween>
      <start><![CDATA[<div class="myAdd">]]></start>
      <end><![CDATA[</div>]]></end>
  </stripBetween>
</transformer>


]]>
]]>

您可以使用相同的原则剥离页眉和页脚。如果你不想抓取图像，你可以很容易地过滤掉它们

你可以从Scrapinghub.com上试试Portia