Web scraping 如何刮网站，如炒作机？_Web Scraping_Screen Scraping

Web scraping 如何刮网站，如炒作机？

web-scraping

Web scraping 如何刮网站，如炒作机？,web-scraping,screen-scraping,Web Scraping,Screen Scraping,我对网站抓取很好奇（例如，它是如何完成的等等），特别是我想写一个脚本来执行该网站的任务。我实际上是一名软件工程专业的本科生（四年级），但是我们并没有真正涉及任何web编程，所以我对Javascript/RESTFul API/All things web的理解非常有限，因为我们主要关注理论和客户端应用程序。非常感谢任何帮助或指导。首先要查找的是网站是否已经提供了某种结构化数据，或者您是否需要自己解析HTML。看起来有一个。如果这就是你想要的，那么最好从那里开始您可以使用脚本语言下载提要并对

我对网站抓取很好奇（例如，它是如何完成的等等），特别是我想写一个脚本来执行该网站的任务。我实际上是一名软件工程专业的本科生（四年级），但是我们并没有真正涉及任何web编程，所以我对Javascript/RESTFul API/All things web的理解非常有限，因为我们主要关注理论和客户端应用程序。

非常感谢任何帮助或指导。

首先要查找的是网站是否已经提供了某种结构化数据，或者您是否需要自己解析HTML。看起来有一个。如果这就是你想要的，那么最好从那里开始

您可以使用脚本语言下载提要并对其进行解析。我使用python，但如果您愿意，可以选择不同的脚本语言。这里有一些关于你可能会怎样做的文档

在编写下载站点或RSS提要的程序时，另一件需要注意的事情是您的抓取脚本运行的频率。如果您让它不断运行，以便在新数据可用时立即获取新数据，您将在站点上加载大量负载，很有可能他们会阻止您。尽量不要超出需要频繁运行脚本。

您可能需要查看以下书籍：

webbot、spider和Screen scraper：使用PHP/CURL开发Internet代理的指南

“C#机器人的HTTP编程方法”

“Java机器人的HTTP编程方法”

我认为你必须分析的最重要的事情是你想提取哪种信息。如果你想像谷歌那样提取整个网站，你最好的选择可能是分析Apache.org上的nutch或flaptor解决方案，如果你需要提取非结构化数据文档（网站、文档、pdf）上的特定区域，也许你可以扩展nutch插件以满足特定需求。nutch.apache.org

另一方面，如果您需要提取网站的特定文本或剪辑区域，在这些区域中您可以使用页面的DOM设置规则，那么您需要检查的可能是与mozenda.com等工具更相关的内容。使用这些工具，您将能够设置提取规则，以便删除网站上的特定信息。你必须考虑到网页上的任何更改都会给你的机器人带来错误

最后，如果您计划使用信息源开发一个网站，您可以从spinn3r.com等公司购买信息，前提是这些公司销售特定的可供消费的信息。您将能够在基础设施上节省大量资金。希望有帮助！。

sebastian.

Python有feedparser模块，位于feedparser.org，它实际处理各种风格的RSS和各种风格的ATOM。没有理由重新发明轮子。

有趣的是，Hype Machine没有robots.txt，所以看起来他们似乎不介意任何人刮擦。这是我不久前写的一篇博文：。这很有趣。。。我很想为自己编写一个脚本来下载歌曲，而不必亲自访问这些网站……我不知道你在寻找什么语言，但有许多语言的模块需要学习……在Python中，你可以使用BeautifulSoup4（）。我想你一定会喜欢学习一些网络编码。你可以，使用Python和BeautifulSoup，刮取整个网站，然后从中过滤出各种元素（如链接…然后你可以使用正则表达式匹配等过滤mp3数据等文件类型）。然而，这是一个比最初提出的更广泛的答案…我似乎理解刮取原始HTML数据，我也很好奇，比如说，人们怎么能把这些歌删掉。我认为他们的API是通过Flash播放器完成的。实际上，我必须抓取HTML才能获得他们API的密钥；）