Web 像搜索引擎那样只获取网站详细信息

Web 像搜索引擎那样只获取网站详细信息,web,search-engine,web-crawler,Web,Search Engine,Web Crawler,我必须像搜索引擎一样获取网站详细信息。我需要该网站的描述,链接和一些关于他们的信息,并将其存储在我的数据库。是否有任何库可用于此操作?请记住,我可以抓取整个网页,但我只需要搜索引擎抓取的格式的信息 谢谢, Karthik是哪种语言?存在用于读取网页内容的API和绑定。如果你想创建一个新的“搜索引擎”,你意识到任务的规模了吗?你的问题太笼统了,除了: 尊重机器人.txt 不要用请求重击服务器,您的IP很快就会被明智的系统管理员阻止。我需要Java版本的IP,它应该和自定义web搜索API一样。我可

我必须像搜索引擎一样获取网站详细信息。我需要该网站的描述,链接和一些关于他们的信息,并将其存储在我的数据库。是否有任何库可用于此操作?请记住,我可以抓取整个网页,但我只需要搜索引擎抓取的格式的信息

谢谢,

Karthik是哪种语言?存在用于读取网页内容的API和绑定。如果你想创建一个新的“搜索引擎”,你意识到任务的规模了吗?你的问题太笼统了,除了:

尊重机器人.txt


不要用请求重击服务器,您的IP很快就会被明智的系统管理员阻止。

我需要Java版本的IP,它应该和自定义web搜索API一样。我可以使用谷歌提供的JSON/Atom定制搜索API,但每天只能进行100次搜索查询。这个查询可能有用