Php 关于从互联网上爬行/爬行/收集音频内容的最佳方式的建议/提示_Php_Mysql_Indexing_Mp3_Web Crawler

Php 关于从互联网上爬行/爬行/收集音频内容的最佳方式的建议/提示

php mysql indexing web-crawler

Php 关于从互联网上爬行/爬行/收集音频内容的最佳方式的建议/提示,php,mysql,indexing,mp3,web-crawler,Php,Mysql,Indexing,Mp3,Web Crawler,其实我想做的是弄清楚beem3.COM是如何工作的由于网站的速度，我怀疑他们会当场刮去其他网站/资源。他们可能使用某种数据库（PostgreSQL或MySQL）来存储“结果”，然后只查询搜索词我的问题是，你们认为他们是如何抓取或抓取mp3文件/内容的？他们必须有一些算法来抓取互联网，或者使用谷歌的mp3索引技巧来查找带有原始mp3文件的主机任何评论、提示或想法都非常感谢：）QueryPath是构建网络蜘蛛的绝佳工具我猜他们是通过组合方式找到MP3的——他们有一个“种子站点”列表（从G

其实我想做的是弄清楚beem3.COM是如何工作的

由于网站的速度，我怀疑他们会当场刮去其他网站/资源。他们可能使用某种数据库（PostgreSQL或MySQL）来存储“结果”，然后只查询搜索词

我的问题是，你们认为他们是如何抓取或抓取mp3文件/内容的？他们必须有一些算法来抓取互联网，或者使用谷歌的mp3索引技巧来查找带有原始mp3文件的主机

任何评论、提示或想法都非常感谢：）

QueryPath是构建网络蜘蛛的绝佳工具

我猜他们是通过组合方式找到MP3的——他们有一个“种子站点”列表（从Google、Usenet收集或手动插入），作为搜索的起点，然后设置蜘蛛与之对抗

您需要编写一个脚本，该脚本将：

以网页为起点
获取网页数据（使用cURL）
使用正则表达式提取（a）任何链接（b）mp3文件的任何链接
将任何MP3链接放入数据库
将指向其他网页的链接列表添加到队列中，以便通过上述方法进行处理

您还需要定期重新检查MP3链接，以删除任何坏链接。

QueryPath是构建网络蜘蛛的绝佳工具

我猜他们是通过组合方式找到MP3的——他们有一个“种子站点”列表（从Google、Usenet收集或手动插入），作为搜索的起点，然后设置蜘蛛与之对抗

您需要编写一个脚本，该脚本将：

以网页为起点
获取网页数据（使用cURL）
使用正则表达式提取（a）任何链接（b）mp3文件的任何链接
将任何MP3链接放入数据库
将指向其他网页的链接列表添加到队列中，以便通过上述方法进行处理

您还需要定期重新检查MP3链接，以删除任何不正确的链接。

或者，您可以抓取像Beem3.com这样的MP3爬行器，提取所有直接下载链接并将其保存到数据库中。你只需要两个文件 I.简单的HTMLDOM。二,。可以提取到数据库的链接的应用程序

检查一下我做了什么

如果有任何矛盾，你可以不断询问。

或者，你可以抓取像Beem3.com这样的MP3爬行器，提取所有直接下载链接，并将它们保存到数据库中。你只需要两个文件 I.简单的HTMLDOM。二,。可以提取到数据库的链接的应用程序

检查一下我做了什么

如果有矛盾，你就不断地问