Htmlnode收集和解析_Html_Parsing_Html Agility Pack

Htmlnode收集和解析

html parsing

Htmlnode收集和解析,html,parsing,html-agility-pack,Html,Parsing,Html Agility Pack,我正在尝试提取网页中包含的文本。因此，我正在使用第三个pary工具Html敏捷包。在这方面，他们提到： HtmlWeb htmlWeb = new HtmlWeb(); HtmlDocument doc = htmlWeb.Load("http://www.msn.com/"); HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]"); foreach (HtmlNode link in links) { Re

我正在尝试提取网页中包含的文本。因此，我正在使用第三个pary工具Html敏捷包。在这方面，他们提到：

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

HtmlWeb-HtmlWeb=new-HtmlWeb（）；
HtmlDocument doc=htmlWeb.Load（“http://www.msn.com/");
HtmlNodeCollection links=doc.DocumentNode.SelectNodes（“//a[@href]”）；
foreach（链接中的HtmlNode链接）
{
Response.Write（link.Attributes[“href”].Value+“
”；
}

对我来说，抓取页面中包含的所有其他链接是有效的。但是我想获取该页面中包含的所有文本数据。有可能吗？

是的，有可能。下载HtmlAgilityPack的源代码，并查看html2text示例项目，尤其是HtmlConvert.cs。你几乎可以复制/粘贴他们的方法到你正在做的任何事情中

或者，就此而言，按原样编译样例项目并设置对二进制文件的引用。HtmlAgilityPack.Samples.htmlotext.Convert（）将完全满足您的需要。

您正在使用xpath选择器。如果选择所有节点（“*”），然后执行foreach，它会工作吗

PS：这是什么编程语言