Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/typo3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Javascript PHP中的Web爬虫问题_Javascript_Php_Regex_Oop - Fatal编程技术网

Javascript PHP中的Web爬虫问题

Javascript PHP中的Web爬虫问题,javascript,php,regex,oop,Javascript,Php,Regex,Oop,此应用程序将充当搜索引擎,从不同(至少200个)学术机构(包括大学、学院和其他培训机构)提取教员相关信息。这包括教员姓名、最高资格、专业领域、专业类型(教学、研究、辅导等)、经验(年数)和隶属关系,并将其存储在数据库中 我必须从200个网站获取数据,这意味着每个网站都有自己的标签和其他东西,每个网站的正则表达式将不一样,我如何才能做到这一点,有人可以帮助吗?你需要使用无头浏览器进行网页爬网。我推荐这个工具 为了能够抓取多个网站,一旦每个网站都有自己的html结构,您将需要实现许多不同的抓取程序,

此应用程序将充当搜索引擎,从不同(至少200个)学术机构(包括大学、学院和其他培训机构)提取教员相关信息。这包括教员姓名、最高资格、专业领域、专业类型(教学、研究、辅导等)、经验(年数)和隶属关系,并将其存储在数据库中


我必须从200个网站获取数据,这意味着每个网站都有自己的标签和其他东西,每个网站的正则表达式将不一样,我如何才能做到这一点,有人可以帮助吗?

你需要使用无头浏览器进行网页爬网。我推荐这个工具

为了能够抓取多个网站,一旦每个网站都有自己的html结构,您将需要实现许多不同的抓取程序,每个网站一个


问候。

到目前为止,您尝试了什么?非常感谢您的回答,我正在这样做。$regexp='!(.*?)!'; preg\u match\u all($regexp,$name\u url,$name)$f_name=$name[1];返回$f_name;但正如你们所知,每次正则表达式发生变化时,我该如何操作这个东西呢?这是网页抓取,而不是网页抓取。如果每个站点不相同,则必须为每个站点编写自定义代码。另外,你有没有得到200个研究所的书面许可?你需要它,否则,这是违法的,属于版权所有。非常感谢你的回答,问题是我必须给海关编码,我不能使用任何类型的库。创建用于web爬行的自定义工具不适用于所有网站,因为有些网站需要javascript交互,它迫使您使用无头浏览器模拟客户端浏览。我认为,您自己所能达到的最大限度就是使用自定义正则表达式获取信息,然后手动解析DOM。这将花费你太多的时间,至少一无所有。想得好一点。先生,非常感谢您,这真的很有帮助,事实上,问题是,我们正在和一家有一些限制的公司合作。所以我必须跟着他们,你们认为除了使用图书馆,还有什么其他的可能吗。也许它会对我有帮助。你可以阅读Dom Crawler的源代码,它只使用纯PHP。好的,非常感谢你,先生,这对我真的很有帮助。