Php 提取所有href值

Php 提取所有href值,php,mysql,extraction,Php,Mysql,Extraction,我想提取基于PHP(Joomla)站点的所有href值,并将其保存到CSV或类似文件中。我可以访问MySQL内容表,以便在需要时可以梳理原始数据 我可能需要在以后过滤掉我提取的内容,但现在我欢迎任何想法开始 提前谢谢 您可以使用HTML解析器解析HTML内容;它是否来自文本文件、数据库字段或URL。解析器可以让您有选择地从HTML中提取内容,在您的情况下,可以使用上的href属性从网站中提取约1.5 Gig的数据。该页面上有一个5-10行的示例,可以帮助您开始学习。您还可以使用函数来创建作业。你

我想提取基于PHP(Joomla)站点的所有href值,并将其保存到CSV或类似文件中。我可以访问MySQL内容表,以便在需要时可以梳理原始数据

我可能需要在以后过滤掉我提取的内容,但现在我欢迎任何想法开始


提前谢谢

您可以使用HTML解析器解析HTML内容;它是否来自文本文件、数据库字段或URL。解析器可以让您有选择地从HTML中提取内容,在您的情况下,可以使用
上的
href
属性从网站中提取约1.5 Gig的数据。该页面上有一个5-10行的示例,可以帮助您开始学习。您还可以使用函数来创建作业。你可以找到很多关于从一块HTML中提取特定内容(标记、属性、文本节点)的例子。

所以不是一个有成千上万志愿者做你工作的地方我不是在找人帮我做这件事(我没说清楚吗?)。。。只是需要一些想法来开始。看起来你没有做任何事情来解决你的问题。你到底在干什么?对不起,我应该添加更多的细节。。。我试过这样一个工具:我想它可以工作,但一个完整的许可证需要50美元。想知道我是否可以用做过类似事情的人提供的.sql来做些什么。谢谢,伙计,我正在寻找的答案是:)将更新我的进展。我已经使用了PHP简单HTML DOM解析器。看起来它无法自动爬网整个站点。(或者你是不是用你的~1.5gb数据做到了这一点?!)所以。。。我正试图找到一种方法将sql列转换成一个巨大的html文件进行解析…@lee:爬行是另一个问题。我使用简单的DOM、类id/名称和正则表达式(不是所有链接)提取了感兴趣的链接。至于整合数据,您可以使用3/4行PHP代码;然而,我不建议简单DOM在大文件上出现(一次解析600-800Kb的文件,另一次解析450Kb后耗尽内存)。