Html 使用wget提取元标记属性_Html_Meta Tags

Html 使用wget提取元标记属性

html

Html 使用wget提取元标记属性,html,meta-tags,Html,Meta Tags,我有一个文件，每行有一些URL。我需要提取标签中存在的关键字，即，如果关键字有元标签，那么我想获取它的内容值。示例：如果网页有这个元标记，那么对于那个URL，我希望维基百科，百科全书被提取出来一种方法是使用wget下载web页面，然后使用一些标准的HTML解析器对其进行解析我想知道有没有更好的方法不用下载整个网页就可以做到这一点。您所描述的是最简单的实现方案如果您担心产生的网络流量，您可以编写一个只读取报头的小程序。一旦你阅读了标签，你就可以完成下载了更新：您必须为套接字设置一个非常小的

我有一个文件，每行有一些URL。我需要提取标签中存在的关键字，即，如果关键字有元标签，那么我想获取它的内容值。示例：如果网页有这个元标记，那么对于那个URL，我希望维基百科，百科全书被提取出来

一种方法是使用wget下载web页面，然后使用一些标准的HTML解析器对其进行解析

我想知道有没有更好的方法不用下载整个网页就可以做到这一点。

您所描述的是最简单的实现方案

如果您担心产生的网络流量，您可以编写一个只读取报头的小程序。一旦你阅读了标签，你就可以完成下载了

更新：您必须为套接字设置一个非常小的接收缓冲区，否则内核可能仍然会下载整个页面。使用tcpdump验证您的解决方案。

但是，当网页仍在由wget下载时，如何处理该网页？简单的答案是您不需要。您可以执行wget-O-并处理stdin，但随后必须使用sysctl为所有套接字设置内核接收缓冲区，这肯定不是一个好主意。你必须用C++或Python或者任何让你操作套接字的东西来写这个…如果这听起来太复杂了，你只需下载整个页面。