Php中的HTML抓取_Php_Html_Screen Scraping

Php中的HTML抓取

php html

Php中的HTML抓取,php,html,screen-scraping,Php,Html,Screen Scraping,我一直在使用正则表达式在PHP中进行HTML抓取。这是可行的，但结果是挑剔和脆弱的。有人使用过提供更健壮解决方案的软件包吗？配置驱动的解决方案是理想的，但我并不挑剔。在您从页面中删除HTML后，我会推荐您。它支持无效的HTML，并提供了一种处理HTML元素的非常简单的方法如果您正在抓取的页面是有效的X（HT）ML，那么任何一个都可以我在使用PHP库进行抓取方面没有太大成功。如果你喜欢冒险，你可以试试。我推荐Ruby或Python，它们都是优秀的HTML解析器。我对上述内容的结果也非常满意。还

我一直在使用正则表达式在PHP中进行HTML抓取。这是可行的，但结果是挑剔和脆弱的。有人使用过提供更健壮解决方案的软件包吗？配置驱动的解决方案是理想的，但我并不挑剔。

在您从页面中删除HTML后，我会推荐您。它支持无效的HTML，并提供了一种处理HTML元素的非常简单的方法

如果您正在抓取的页面是有效的X（HT）ML，那么任何一个都可以

我在使用PHP库进行抓取方面没有太大成功。如果你喜欢冒险，你可以试试。我推荐Ruby或Python，它们都是优秀的HTML解析器。

我对上述内容的结果也非常满意。还有一个也很好用的方法。

我在使用它时很开心，它不是一个高端的解决方案，但使用起来很简单。

使用PHP进行HTML抓取，我建议使用cURL+regexp或cURL+一些DOM解析器，尽管我个人使用cURL+regexp。如果您对regexp有着深刻的体验，它实际上有时更准确。

我还建议您使用“简单HTML DOM解析器”。这是一个很好的选择，特别是如果您熟悉jQuery或JavaScript选择器，那么您会发现自己在家

我不得不在主机1和1上使用curl

这就是我使用简单DOM类想到的

如果您要解析特别草率的HTML，请确保不要使用BeautifulSoup3.1.x（使用3.0.x）。3.1.x使用HTMLIB作为解析器，这比3.0.x使用sgmllib.late comment要宽容得多，但我刚刚通过谷歌找到了你的答案。。我喜欢它！：）现在对你有用吗？它似乎对我不起作用…看看线程-这个问题进入了一个类似的方向建议第三方替代方案，而不是实际使用字符串解析：，和。你能给我一个例子，点击给定页面上的任何链接吗？