Php中的HTML抓取

Php中的HTML抓取,php,html,screen-scraping,Php,Html,Screen Scraping,我一直在使用正则表达式在PHP中进行HTML抓取。这是可行的,但结果是挑剔和脆弱的。有人使用过提供更健壮解决方案的软件包吗?配置驱动的解决方案是理想的,但我并不挑剔。在您从页面中删除HTML后,我会推荐您。它支持无效的HTML,并提供了一种处理HTML元素的非常简单的方法 如果您正在抓取的页面是有效的X(HT)ML,那么任何一个都可以 我在使用PHP库进行抓取方面没有太大成功。如果你喜欢冒险,你可以试试。我推荐Ruby或Python,它们都是优秀的HTML解析器。我对上述内容的结果也非常满意。还

我一直在使用正则表达式在PHP中进行HTML抓取。这是可行的,但结果是挑剔和脆弱的。有人使用过提供更健壮解决方案的软件包吗?配置驱动的解决方案是理想的,但我并不挑剔。

在您从页面中删除HTML后,我会推荐您。它支持无效的HTML,并提供了一种处理HTML元素的非常简单的方法

如果您正在抓取的页面是有效的X(HT)ML,那么任何一个都可以


我在使用PHP库进行抓取方面没有太大成功。如果你喜欢冒险,你可以试试。我推荐Ruby或Python,它们都是优秀的HTML解析器。

我对上述内容的结果也非常满意。还有一个也很好用的方法。

我在使用它时很开心,它不是一个高端的解决方案,但使用起来很简单。

使用PHP进行HTML抓取,我建议使用cURL+regexp或cURL+一些DOM解析器,尽管我个人使用cURL+regexp。如果您对regexp有着深刻的体验,它实际上有时更准确。

我还建议您使用“简单HTML DOM解析器”。这是一个很好的选择,特别是如果您熟悉jQuery或JavaScript选择器,那么您会发现自己在家


我不得不在主机1和1上使用curl


这就是我使用简单DOM类想到的

如果您要解析特别草率的HTML,请确保不要使用BeautifulSoup3.1.x(使用3.0.x)。3.1.x使用HTMLIB作为解析器,这比3.0.x使用sgmllib.late comment要宽容得多,但我刚刚通过谷歌找到了你的答案。。我喜欢它!:)现在对你有用吗?它似乎对我不起作用…看看线程-这个问题进入了一个类似的方向建议第三方替代方案,而不是实际使用字符串解析:,和。你能给我一个例子,点击给定页面上的任何链接吗?