Php 关于从互联网上爬行/爬行/收集音频内容的最佳方式的建议/提示

Php 关于从互联网上爬行/爬行/收集音频内容的最佳方式的建议/提示,php,mysql,indexing,mp3,web-crawler,Php,Mysql,Indexing,Mp3,Web Crawler,其实我想做的是弄清楚beem3.COM是如何工作的 由于网站的速度,我怀疑他们会当场刮去其他网站/资源。 他们可能使用某种数据库(PostgreSQL或MySQL)来存储“结果”,然后只查询搜索词 我的问题是,你们认为他们是如何抓取或抓取mp3文件/内容的? 他们必须有一些算法来抓取互联网,或者使用谷歌的mp3索引技巧来查找带有原始mp3文件的主机 任何评论、提示或想法都非常感谢:)QueryPath是构建网络蜘蛛的绝佳工具 我猜他们是通过组合方式找到MP3的——他们有一个“种子站点”列表(从G

其实我想做的是弄清楚beem3.COM是如何工作的

由于网站的速度,我怀疑他们会当场刮去其他网站/资源。 他们可能使用某种数据库(PostgreSQL或MySQL)来存储“结果”,然后只查询搜索词

我的问题是,你们认为他们是如何抓取或抓取mp3文件/内容的? 他们必须有一些算法来抓取互联网,或者使用谷歌的mp3索引技巧来查找带有原始mp3文件的主机


任何评论、提示或想法都非常感谢:)

QueryPath是构建网络蜘蛛的绝佳工具

我猜他们是通过组合方式找到MP3的——他们有一个“种子站点”列表(从Google、Usenet收集或手动插入),作为搜索的起点,然后设置蜘蛛与之对抗

您需要编写一个脚本,该脚本将:

  • 以网页为起点
  • 获取网页数据(使用cURL)
  • 使用正则表达式提取(a)任何链接(b)mp3文件的任何链接
  • 将任何MP3链接放入数据库
  • 将指向其他网页的链接列表添加到队列中,以便通过上述方法进行处理

您还需要定期重新检查MP3链接,以删除任何坏链接。

QueryPath是构建网络蜘蛛的绝佳工具

我猜他们是通过组合方式找到MP3的——他们有一个“种子站点”列表(从Google、Usenet收集或手动插入),作为搜索的起点,然后设置蜘蛛与之对抗

您需要编写一个脚本,该脚本将:

  • 以网页为起点
  • 获取网页数据(使用cURL)
  • 使用正则表达式提取(a)任何链接(b)mp3文件的任何链接
  • 将任何MP3链接放入数据库
  • 将指向其他网页的链接列表添加到队列中,以便通过上述方法进行处理

您还需要定期重新检查MP3链接,以删除任何不正确的链接。

或者,您可以抓取像Beem3.com这样的MP3爬行器,提取所有直接下载链接并将其保存到数据库中。你只需要两个文件 I.简单的HTMLDOM。 二,。可以提取到数据库的链接的应用程序

检查一下我做了什么


如果有任何矛盾,你可以不断询问。

或者,你可以抓取像Beem3.com这样的MP3爬行器,提取所有直接下载链接,并将它们保存到数据库中。你只需要两个文件 I.简单的HTMLDOM。 二,。可以提取到数据库的链接的应用程序

检查一下我做了什么

如果有矛盾,你就不断地问