.net 从HTML源获取特定信息_.net_Html_Regex_Vb.net_Parsing

.net 从HTML源获取特定信息

.net html regex vb.net parsing

.net 从HTML源获取特定信息,.net,html,regex,vb.net,parsing,.net,Html,Regex,Vb.net,Parsing,我整天都在编程，试图实现我的目标。起初，我尝试使用正则表达式（Regex），但它太复杂了，也不够完善，尽管它确实在某种程度上达到了我的目标这是指向我正在使用的站点的链接： http://thewarezscene.org/forums/memberlist.php?start=20 如果您查看页面的来源（网站目前似乎已关闭），您将注意到此重复链接标签： <a href="http://thewarezscene.org/forums/username-u14088.html"&

我整天都在编程，试图实现我的目标。起初，我尝试使用正则表达式（Regex），但它太复杂了，也不够完善，尽管它确实在某种程度上达到了我的目标

这是指向我正在使用的站点的链接：

http://thewarezscene.org/forums/memberlist.php?start=20

如果您查看页面的来源（网站目前似乎已关闭），您将注意到此重复链接标签：

<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>

每个新页面都有一个注册到该站点的所有人的列表。增加20。例如，开始=20，开始=40，开始=60。我知道如何从HTML页面中获取所有元素，但要仅获取特定链接格式的链接文本，最好的解决方案是什么？

使用类似的HTML解析器来解析HTML

什么是Html敏捷包（HAP）

这是一个敏捷的HTML解析器，它构建读/写DOM并支持纯XPATH或XSLT（您实际上不必理解XPATH或XSLT就可以使用它，不用担心……）。它是一个.NET代码库，允许您解析“web外”HTML文件。解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.Xml非常相似，但适用于HTML文档（或流）

如果要获取href中存在参数“start”的所有元素，则Regex不适合解析HTML，如中所示。

$("a[href*='start=']")

Oded如何获得HTML敏捷包？它已经在.NET框架中使用了吗？还是我必须从某个地方下载的图书馆？@43.52.4D。-我确实提供了一个链接。它确实有下载。即使我没有，你也可以用谷歌搜索。请努力一点。我用谷歌搜索了一下，我只是想确认一下。我正在自学编程，这需要努力。@43.52.4D。-你真好。但在提供链接时要求下载并不表示努力。。。