Web 正在寻找一个网站

Web 正在寻找一个网站,web,screen-scraping,Web,Screen Scraping,我正在寻找一个像yelp.com这样的网站,以获得所有酒吧的列表。 是否有任何工具或脚本可以帮助我做到这一点。从Python的角度来看 自动下载网页 用于解析HTML源以获取所需信息 阅读好的教程,让您开始使用这两种工具。-它的跨平台,多年来一直在使用这个工具。如果您了解Python,我发现这个模块非常方便。与jQuery一样,它允许您使用增强的CSS选择器来选择DOM对象,我发现这比使用解析器要容易得多。早在互联网时代,我就写了一个刮刀,从一些电子商务网站上获取信息。我使用perl,每个站

我正在寻找一个像yelp.com这样的网站,以获得所有酒吧的列表。
是否有任何工具或脚本可以帮助我做到这一点。

从Python的角度来看

  • 自动下载网页
  • 用于解析HTML源以获取所需信息

阅读好的教程,让您开始使用这两种工具。

-它的跨平台,多年来一直在使用这个工具。

如果您了解Python,我发现这个模块非常方便。与jQuery一样,它允许您使用增强的CSS选择器来选择DOM对象,我发现这比使用解析器要容易得多。

早在互联网时代,我就写了一个刮刀,从一些电子商务网站上获取信息。我使用perl,每个站点都有两层代码。“发现”层将解析和查找项目列表,“过程”层将读取产品页面和单独的数据字段,并将它们输入数据库

从您想要做的事情来看,我认为滚动您自己的解决方案可能是最好的方法,因为它并不十分复杂。使用具有良好字符串处理和正则表达式支持的Perl或类似解释语言

分离页面真的很容易。忘记解析树吧(我就这么做了,放弃了),手动识别模板中与所需信息相邻的文本块并将其放在正则表达式中以提取数据要简单得多


把它们列在一个清单上,散列,随便什么,然后用它做你想做的

我在Superpages和citySearch上做过类似的工作。从那里,您可以将结果写入CSV、数据库或其他任何地方。

这里有人使用过heritrix吗?谢谢,我下载了试用版的s/w。教程也非常详细