从PHP站点提取数据-复制数据库

从PHP站点提取数据-复制数据库,php,database,extract,replicate,Php,Database,Extract,Replicate,有一个基于PHP的网站,我想从中复制数据 问题是,该网站的数据只能通过公司名称搜索页面(www.example.com/companynamesearch.php)访问 结果显示在同一URL下,因此它没有单独的公司名称URL来抓取数据 有人能建议一种从网站上提取数据的简单方法吗 谢谢首先,您需要查询数据。弄清楚数据是否真的在这个页面上,数据是否按照@JonathanM的建议通过AJAX传入。您可以使用诸如Fiddler之类的工具或浏览器的开发人员工具来监视这一点 如果您发现数据是通过AJAX传入

有一个基于PHP的网站,我想从中复制数据

问题是,该网站的数据只能通过公司名称搜索页面(www.example.com/companynamesearch.php)访问

结果显示在同一URL下,因此它没有单独的公司名称URL来抓取数据

有人能建议一种从网站上提取数据的简单方法吗


谢谢

首先,您需要查询数据。弄清楚数据是否真的在这个页面上,数据是否按照@JonathanM的建议通过AJAX传入。您可以使用诸如Fiddler之类的工具或浏览器的开发人员工具来监视这一点

如果您发现数据是通过AJAX传入的,那么一切都准备好了。它可能是JSON,但可以是任何类型,所以请注意


如果数据在此页面上,并且页面由POST数据查询,那么您必须发出这些POST请求,然后解析页面。现在,不要自己做这件事。使用DOMDocument为您挖掘页面。有关详细信息,请参见此问题:

如果您选择的语言是php,那么您应该了解curl的自动表单提交功能,它将使您能够自动化内部搜索引擎的表单

这里有一个有用的答案

或者,您也可以查看以下基本教程开始学习:


将curl与php结合使用将节省大量时间,但请注意,如果网站所有者不希望您刮伤他们的网站,您可能会遇到困难。当然还有版权问题等。你有没有试过在谷歌搜索
网站:www.example.com
?您可能会得到所有页面的列表


他们可能已经提交了网站地图,或者谷歌可能已经找到了另一种方式。

每个页面都有一个单独的URL。它可能只是作为一个ajax调用隐藏在javascript中。如果你给我们真正的网站,我们可能能够提供具体的帮助。此外,如果你真的需要从HTML页面中提取数据,考虑一些类似YQL的内容:Brad,你是对的。这就是为什么我说“复制”=steal中的数据?如果你只有一个搜索引擎,那么你就必须对它抛出一些大量的搜索词,然后刮取结果。像这样的垃圾网站往往会遭到网站所有者的反对。。。换句话说,您最好联系运营商并协商一个提要。否则你就是在偷盗。“复制本网站内的任何内容都需要书面许可。”那些能够做到的人,那些不能避开其他人网站的人:(很高兴提供帮助。实际上,这是最好的链接: