Php &引用;爬行“;关键字页面/站点

Php &引用;爬行“;关键字页面/站点,php,ruby-on-rails,perl,Php,Ruby On Rails,Perl,去年我涉猎了一些perl编程。我写的第一件事是一个简单的脚本,它取一个网页,找出一个单词或名字在该网页上出现了多少次。我称之为“爬行”,对吗?。我想知道这是否是其他语言(如PHP和ROR)的本地过程。基本上,我想为一个没有公共“API”的站点构建自己的“API”,并可能从另一个站点的另一个“API”动态传递关键字(仅用于读取和组织公共数据)。很抱歉,我的头脑最近太抽象了。你的问题很容易处理,事实上很多人/公司已经做过了,但是你还有很长的路要走。粗略地说,“爬行”通常是指使用html页面中的锚定标

去年我涉猎了一些perl编程。我写的第一件事是一个简单的脚本,它取一个网页,找出一个单词或名字在该网页上出现了多少次。我称之为“爬行”,对吗?。我想知道这是否是其他语言(如PHP和ROR)的本地过程。基本上,我想为一个没有公共“API”的站点构建自己的“API”,并可能从另一个站点的另一个“API”动态传递关键字(仅用于读取和组织公共数据)。很抱歉,我的头脑最近太抽象了。

你的问题很容易处理,事实上很多人/公司已经做过了,但是你还有很长的路要走。粗略地说,“爬行”通常是指使用html页面中的锚定标记作为节点之间的边缘,对互联网进行广度或深度优先搜索

您在perl中所做的基本上只是搜索一个html字符串

对于您的API,我建议您找到一个DOM解析器,这样您就不必费心解析html字符串和产生的固有错误

几年前,我想为马萨诸塞州各地区的公寓价格生成一些数据,所以我编写了一个爬虫程序来提取craigslist上的所有公寓列表,并将它们放入数据库中

如果有人感兴趣,我可以继续,但这超出了这个答案的范围


哦,是的,它是用PHP编写的

你的问题很容易处理,事实上很多人/公司已经解决了,但遗憾的是,你还有很长的路要走。粗略地说,“爬行”通常是指使用html页面中的锚定标记作为节点之间的边缘,对互联网进行广度或深度优先搜索

您在perl中所做的基本上只是搜索一个html字符串

对于您的API,我建议您找到一个DOM解析器,这样您就不必费心解析html字符串和产生的固有错误

几年前,我想为马萨诸塞州各地区的公寓价格生成一些数据,所以我编写了一个爬虫程序来提取craigslist上的所有公寓列表,并将它们放入数据库中

如果有人感兴趣,我可以继续,但这超出了这个答案的范围


哦,是的,它是用PHP编写的

如果我理解正确,您希望获取一个URL,将其传递给您的程序,并让它在站点上爬网以查找用户提供的关键字

如果这是正确的,那么不,这不是任何语言的本地过程,您必须自己编写必要的逻辑

每种语言/框架(请注意,ROR不是一种语言,它是基于Ruby语言构建的框架)都有一些工具可以帮助您(例如,在Ruby中,您应该查看解析HTML的方法),但您必须提供大部分逻辑


这不是一件很难做到的事情,但需要一些时间和努力。祝你好运。

如果我理解正确,你想获取一个URL,将其传递给你的程序,让它在网站上搜索用户提供的关键字

如果这是正确的,那么不,这不是任何语言的本地过程,您必须自己编写必要的逻辑

每种语言/框架(请注意,ROR不是一种语言,它是基于Ruby语言构建的框架)都有一些工具可以帮助您(例如,在Ruby中,您应该查看解析HTML的方法),但您必须提供大部分逻辑


这不是一件很难做到的事情,但需要一些时间和努力。祝您好运。

刚刚查看了我的代码,我使用了本机的“DOMDocument”类:下面是我提到的类的txt。我不记得我在写这篇文章时是否注意了,我在一些地方硬编码了一些东西,但我希望这是一个很好的例子,可以让你开始。注意:严格来说,我没有在这里发布任何数据。只需查看我的代码,我使用了本机的“DOMDocument”类:下面是我提到的类的txt。我不记得我在写这篇文章时是否注意了,我在一些地方硬编码了一些东西,但我希望这是一个很好的例子,可以让你开始。注意:严格来说,我没有在这里发布任何数据。