Javascript PHP中的Web爬虫问题_Javascript_Php_Regex_Oop

Javascript PHP中的Web爬虫问题

javascript php regex oop

Javascript PHP中的Web爬虫问题,javascript,php,regex,oop,Javascript,Php,Regex,Oop,此应用程序将充当搜索引擎，从不同（至少200个）学术机构（包括大学、学院和其他培训机构）提取教员相关信息。这包括教员姓名、最高资格、专业领域、专业类型（教学、研究、辅导等）、经验（年数）和隶属关系，并将其存储在数据库中我必须从200个网站获取数据，这意味着每个网站都有自己的标签和其他东西，每个网站的正则表达式将不一样，我如何才能做到这一点，有人可以帮助吗？你需要使用无头浏览器进行网页爬网。我推荐这个工具为了能够抓取多个网站，一旦每个网站都有自己的html结构，您将需要实现许多不同的抓取程序，

此应用程序将充当搜索引擎，从不同（至少200个）学术机构（包括大学、学院和其他培训机构）提取教员相关信息。这包括教员姓名、最高资格、专业领域、专业类型（教学、研究、辅导等）、经验（年数）和隶属关系，并将其存储在数据库中

我必须从200个网站获取数据，这意味着每个网站都有自己的标签和其他东西，每个网站的正则表达式将不一样，我如何才能做到这一点，有人可以帮助吗？

你需要使用无头浏览器进行网页爬网。我推荐这个工具

为了能够抓取多个网站，一旦每个网站都有自己的html结构，您将需要实现许多不同的抓取程序，每个网站一个

问候。

到目前为止，您尝试了什么？非常感谢您的回答，我正在这样做。$regexp='！(.*?)!'; preg\u match\u all（$regexp，$name\u url，$name）$f_name=$name[1]；返回$f_name；但正如你们所知，每次正则表达式发生变化时，我该如何操作这个东西呢？这是网页抓取，而不是网页抓取。如果每个站点不相同，则必须为每个站点编写自定义代码。另外，你有没有得到200个研究所的书面许可？你需要它，否则，这是违法的，属于版权所有。非常感谢你的回答，问题是我必须给海关编码，我不能使用任何类型的库。创建用于web爬行的自定义工具不适用于所有网站，因为有些网站需要javascript交互，它迫使您使用无头浏览器模拟客户端浏览。我认为，您自己所能达到的最大限度就是使用自定义正则表达式获取信息，然后手动解析DOM。这将花费你太多的时间，至少一无所有。想得好一点。先生，非常感谢您，这真的很有帮助，事实上，问题是，我们正在和一家有一些限制的公司合作。所以我必须跟着他们，你们认为除了使用图书馆，还有什么其他的可能吗。也许它会对我有帮助。你可以阅读Dom Crawler的源代码，它只使用纯PHP。好的，非常感谢你，先生，这对我真的很有帮助。