Htmlnode收集和解析

Htmlnode收集和解析,html,parsing,html-agility-pack,Html,Parsing,Html Agility Pack,我正在尝试提取网页中包含的文本。因此,我正在使用第三个pary工具Html敏捷包。在这方面,他们提到: HtmlWeb htmlWeb = new HtmlWeb(); HtmlDocument doc = htmlWeb.Load("http://www.msn.com/"); HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]"); foreach (HtmlNode link in links) { Re

我正在尝试提取网页中包含的文本。因此,我正在使用第三个pary工具Html敏捷包。在这方面,他们提到:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}
HtmlWeb-HtmlWeb=new-HtmlWeb();
HtmlDocument doc=htmlWeb.Load(“http://www.msn.com/");
HtmlNodeCollection links=doc.DocumentNode.SelectNodes(“//a[@href]”);
foreach(链接中的HtmlNode链接)
{
Response.Write(link.Attributes[“href”].Value+“
”; }

对我来说,抓取页面中包含的所有其他链接是有效的。但是我想获取该页面中包含的所有文本数据。有可能吗?

是的,有可能。下载HtmlAgilityPack的源代码,并查看html2text示例项目,尤其是HtmlConvert.cs。你几乎可以复制/粘贴他们的方法到你正在做的任何事情中


或者,就此而言,按原样编译样例项目并设置对二进制文件的引用。HtmlAgilityPack.Samples.htmlotext.Convert()将完全满足您的需要。

您正在使用xpath选择器。如果选择所有节点(“*”),然后执行foreach,它会工作吗

PS:这是什么编程语言