Web scraping 如何刮网站,如炒作机?

Web scraping 如何刮网站,如炒作机?,web-scraping,screen-scraping,Web Scraping,Screen Scraping,我对网站抓取很好奇(例如,它是如何完成的等等),特别是我想写一个脚本来执行该网站的任务。 我实际上是一名软件工程专业的本科生(四年级),但是我们并没有真正涉及任何web编程,所以我对Javascript/RESTFul API/All things web的理解非常有限,因为我们主要关注理论和客户端应用程序。 非常感谢任何帮助或指导。首先要查找的是网站是否已经提供了某种结构化数据,或者您是否需要自己解析HTML。看起来有一个。如果这就是你想要的,那么最好从那里开始 您可以使用脚本语言下载提要并对

我对网站抓取很好奇(例如,它是如何完成的等等),特别是我想写一个脚本来执行该网站的任务。 我实际上是一名软件工程专业的本科生(四年级),但是我们并没有真正涉及任何web编程,所以我对Javascript/RESTFul API/All things web的理解非常有限,因为我们主要关注理论和客户端应用程序。
非常感谢任何帮助或指导。

首先要查找的是网站是否已经提供了某种结构化数据,或者您是否需要自己解析HTML。看起来有一个。如果这就是你想要的,那么最好从那里开始

您可以使用脚本语言下载提要并对其进行解析。我使用python,但如果您愿意,可以选择不同的脚本语言。这里有一些关于你可能会怎样做的文档


在编写下载站点或RSS提要的程序时,另一件需要注意的事情是您的抓取脚本运行的频率。如果您让它不断运行,以便在新数据可用时立即获取新数据,您将在站点上加载大量负载,很有可能他们会阻止您。尽量不要超出需要频繁运行脚本。

您可能需要查看以下书籍:

webbot、spider和Screen scraper:使用PHP/CURL开发Internet代理的指南

“C#机器人的HTTP编程方法”

“Java机器人的HTTP编程方法”
我认为你必须分析的最重要的事情是你想提取哪种信息。如果你想像谷歌那样提取整个网站,你最好的选择可能是分析Apache.org上的nutch或flaptor解决方案,如果你需要提取非结构化数据文档(网站、文档、pdf)上的特定区域,也许你可以扩展nutch插件以满足特定需求。nutch.apache.org

另一方面,如果您需要提取网站的特定文本或剪辑区域,在这些区域中您可以使用页面的DOM设置规则,那么您需要检查的可能是与mozenda.com等工具更相关的内容。使用这些工具,您将能够设置提取规则,以便删除网站上的特定信息。你必须考虑到网页上的任何更改都会给你的机器人带来错误

最后,如果您计划使用信息源开发一个网站,您可以从spinn3r.com等公司购买信息,前提是这些公司销售特定的可供消费的信息。您将能够在基础设施上节省大量资金。 希望有帮助!。
sebastian.

Python有feedparser模块,位于feedparser.org,它实际处理各种风格的RSS和各种风格的ATOM。没有理由重新发明轮子。

有趣的是,Hype Machine没有robots.txt,所以看起来他们似乎不介意任何人刮擦。这是我不久前写的一篇博文:。这很有趣。。。我很想为自己编写一个脚本来下载歌曲,而不必亲自访问这些网站……我不知道你在寻找什么语言,但有许多语言的模块需要学习……在Python中,你可以使用BeautifulSoup4()。我想你一定会喜欢学习一些网络编码。你可以,使用Python和BeautifulSoup,刮取整个网站,然后从中过滤出各种元素(如链接…然后你可以使用正则表达式匹配等过滤mp3数据等文件类型)。然而,这是一个比最初提出的更广泛的答案…我似乎理解刮取原始HTML数据,我也很好奇,比如说,人们怎么能把这些歌删掉。我认为他们的API是通过Flash播放器完成的。实际上,我必须抓取HTML才能获得他们API的密钥;)