.net 从HTML源获取特定信息
我整天都在编程,试图实现我的目标。起初,我尝试使用正则表达式(Regex),但它太复杂了,也不够完善,尽管它确实在某种程度上达到了我的目标 这是指向我正在使用的站点的链接:.net 从HTML源获取特定信息,.net,html,regex,vb.net,parsing,.net,Html,Regex,Vb.net,Parsing,我整天都在编程,试图实现我的目标。起初,我尝试使用正则表达式(Regex),但它太复杂了,也不够完善,尽管它确实在某种程度上达到了我的目标 这是指向我正在使用的站点的链接: http://thewarezscene.org/forums/memberlist.php?start=20 如果您查看页面的来源(网站目前似乎已关闭),您将注意到此重复链接标签: <a href="http://thewarezscene.org/forums/username-u14088.html"&
http://thewarezscene.org/forums/memberlist.php?start=20
如果您查看页面的来源(网站目前似乎已关闭),您将注意到此重复链接标签:
<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>
每个新页面都有一个注册到该站点的所有人的列表。增加20。例如,开始=20,开始=40,开始=60。我知道如何从HTML页面中获取所有元素,但要仅获取特定链接格式的链接文本,最好的解决方案是什么?使用类似的HTML解析器来解析HTML 什么是Html敏捷包(HAP) 这是一个敏捷的HTML解析器,它构建读/写DOM并支持纯XPATH或XSLT(您实际上不必理解XPATH或XSLT就可以使用它,不用担心……)。它是一个.NET代码库,允许您解析“web外”HTML文件。解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.Xml非常相似,但适用于HTML文档(或流)
如果要获取href中存在参数“start”的所有元素,则Regex不适合解析HTML,如中所示。
$("a[href*='start=']")
Oded如何获得HTML敏捷包?它已经在.NET框架中使用了吗?还是我必须从某个地方下载的图书馆?@43.52.4D。-我确实提供了一个链接。它确实有下载。即使我没有,你也可以用谷歌搜索。请努力一点。我用谷歌搜索了一下,我只是想确认一下。我正在自学编程,这需要努力。@43.52.4D。-你真好。但在提供链接时要求下载并不表示努力。。。