Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Search 对于搜索引擎来说,有没有什么积木会刮到其他网站?_Search_Search Engine_Web Crawler - Fatal编程技术网

Search 对于搜索引擎来说,有没有什么积木会刮到其他网站?

Search 对于搜索引擎来说,有没有什么积木会刮到其他网站?,search,search-engine,web-crawler,Search,Search Engine,Web Crawler,我想为一个特定的东西建立一个搜索服务。这些数据可以通过免费的分类服务和许多其他网站免费获取 是否有我可以使用的构建块,例如我可以自定义的开源爬虫,而不是从头开始构建的 关于制造这样的产品有什么建议吗?不仅仅是技术问题,还有我可能需要考虑的任何隐私/法律问题 例如,如果我从许多地方获得结果,我是否需要“给予表扬”,并将链接放在原始链接上 编辑:顺便说一下,我正在使用GWT和JS作为前端,还没有决定后端的语言。PHP或Python。想法?我用Ruby制作了一个屏幕刮板,花了大约五分钟。很明显,时间缩

我想为一个特定的东西建立一个搜索服务。这些数据可以通过免费的分类服务和许多其他网站免费获取

是否有我可以使用的构建块,例如我可以自定义的开源爬虫,而不是从头开始构建的

关于制造这样的产品有什么建议吗?不仅仅是技术问题,还有我可能需要考虑的任何隐私/法律问题

例如,如果我从许多地方获得结果,我是否需要“给予表扬”,并将链接放在原始链接上


编辑:顺便说一下,我正在使用GWT和JS作为前端,还没有决定后端的语言。PHP或Python。想法?

我用Ruby制作了一个屏幕刮板,花了大约五分钟。很明显,时间缩短到了60秒!我不确定Ruby的可扩展性和速度是否与您所期望的一样快,但我从未见过比Ruby更快的概念验证或原型

秘密是一个名为“”的图书馆,它正是为了这个目的而建立的

我对PHP或Python一无所知,也不知道这些开发系统/语言可以使用什么


祝你好运

python中可以使用的块很少

  • beautifulsoup[用于解析HTML。它也可以处理糟糕的代码,而且它的API非常简单……对我来说比任何类似DOM的工具都要好。我的朋友用它成功地清理了他以前的phpbb论坛。它有相当好的文档
  • mechanize[是一个模拟http客户端库的webbrowser。它可以处理cookie、填写表单等。它也很容易使用,但如果您了解http是如何工作的,它会有所帮助
  • --这是一个相对较新的东西:一个基于twisted的完整的抓取框架。我很少使用它

  • 我使用前两行代码来满足我的需要;例如,它需要20行代码来获得一个用于三阶段投票的自动测试工具,模拟等待用户输入数据等等。

    所以我想我的想法是创建一个“屏幕刮刀”,通过HTML代码解析有用的信息,然后将其转储到数据库中这就是一般的过程吗?所以我猜我的想法是,我将创建一个“屏幕刮板”,通过HTML代码进行解析,并提取有用的信息,然后将其转储到数据库中?这就是一般的过程吗?对我来说,它足够通用了……我看到的唯一限制是,既没有javascript也没有flash引擎来完全模拟web你可以添加带有spidermonkey绑定的js——我从来都不需要它。