Search 对于搜索引擎来说，有没有什么积木会刮到其他网站？_Search_Search Engine_Web Crawler

Search 对于搜索引擎来说，有没有什么积木会刮到其他网站？

search web-crawler

Search 对于搜索引擎来说，有没有什么积木会刮到其他网站？,search,search-engine,web-crawler,Search,Search Engine,Web Crawler,我想为一个特定的东西建立一个搜索服务。这些数据可以通过免费的分类服务和许多其他网站免费获取是否有我可以使用的构建块，例如我可以自定义的开源爬虫，而不是从头开始构建的关于制造这样的产品有什么建议吗？不仅仅是技术问题，还有我可能需要考虑的任何隐私/法律问题例如，如果我从许多地方获得结果，我是否需要“给予表扬”，并将链接放在原始链接上编辑：顺便说一下，我正在使用GWT和JS作为前端，还没有决定后端的语言。PHP或Python。想法？我用Ruby制作了一个屏幕刮板，花了大约五分钟。很明显，时间缩

我想为一个特定的东西建立一个搜索服务。这些数据可以通过免费的分类服务和许多其他网站免费获取

是否有我可以使用的构建块，例如我可以自定义的开源爬虫，而不是从头开始构建的

关于制造这样的产品有什么建议吗？不仅仅是技术问题，还有我可能需要考虑的任何隐私/法律问题

例如，如果我从许多地方获得结果，我是否需要“给予表扬”，并将链接放在原始链接上

编辑：顺便说一下，我正在使用GWT和JS作为前端，还没有决定后端的语言。PHP或Python。想法？

我用Ruby制作了一个屏幕刮板，花了大约五分钟。很明显，时间缩短到了60秒！我不确定Ruby的可扩展性和速度是否与您所期望的一样快，但我从未见过比Ruby更快的概念验证或原型

秘密是一个名为“”的图书馆，它正是为了这个目的而建立的

我对PHP或Python一无所知，也不知道这些开发系统/语言可以使用什么

祝你好运

python中可以使用的块很少

beautifulsoup[用于解析HTML。它也可以处理糟糕的代码，而且它的API非常简单……对我来说比任何类似DOM的工具都要好。我的朋友用它成功地清理了他以前的phpbb论坛。它有相当好的文档

mechanize[是一个模拟http客户端库的webbrowser。它可以处理cookie、填写表单等。它也很容易使用，但如果您了解http是如何工作的，它会有所帮助

--这是一个相对较新的东西：一个基于twisted的完整的抓取框架。我很少使用它

我使用前两行代码来满足我的需要；例如，它需要20行代码来获得一个用于三阶段投票的自动测试工具，模拟等待用户输入数据等等。

所以我想我的想法是创建一个“屏幕刮刀”，通过HTML代码解析有用的信息，然后将其转储到数据库中这就是一般的过程吗？所以我猜我的想法是，我将创建一个“屏幕刮板”，通过HTML代码进行解析，并提取有用的信息，然后将其转储到数据库中？这就是一般的过程吗？对我来说，它足够通用了……我看到的唯一限制是，既没有javascript也没有flash引擎来完全模拟web你可以添加带有spidermonkey绑定的js——我从来都不需要它。