Html 使用wget提取元标记属性

Html 使用wget提取元标记属性,html,meta-tags,Html,Meta Tags,我有一个文件,每行有一些URL。我需要提取标签中存在的关键字,即,如果关键字有元标签,那么我想获取它的内容值。示例:如果网页有这个元标记,那么对于那个URL,我希望维基百科,百科全书被提取出来 一种方法是使用wget下载web页面,然后使用一些标准的HTML解析器对其进行解析 我想知道有没有更好的方法不用下载整个网页就可以做到这一点。您所描述的是最简单的实现方案 如果您担心产生的网络流量,您可以编写一个只读取报头的小程序。一旦你阅读了标签,你就可以完成下载了 更新:您必须为套接字设置一个非常小的

我有一个文件,每行有一些URL。我需要提取标签中存在的关键字,即,如果关键字有元标签,那么我想获取它的内容值。示例:如果网页有这个元标记,那么对于那个URL,我希望维基百科,百科全书被提取出来

一种方法是使用wget下载web页面,然后使用一些标准的HTML解析器对其进行解析


我想知道有没有更好的方法不用下载整个网页就可以做到这一点。

您所描述的是最简单的实现方案

如果您担心产生的网络流量,您可以编写一个只读取报头的小程序。一旦你阅读了标签,你就可以完成下载了


更新:您必须为套接字设置一个非常小的接收缓冲区,否则内核可能仍然会下载整个页面。使用tcpdump验证您的解决方案。

但是,当网页仍在由wget下载时,如何处理该网页?简单的答案是您不需要。您可以执行wget-O-并处理stdin,但随后必须使用sysctl为所有套接字设置内核接收缓冲区,这肯定不是一个好主意。你必须用C++或Python或者任何让你操作套接字的东西来写这个…如果这听起来太复杂了,你只需下载整个页面。