Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/78.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
.net 从HTML源获取特定信息_.net_Html_Regex_Vb.net_Parsing - Fatal编程技术网

.net 从HTML源获取特定信息

.net 从HTML源获取特定信息,.net,html,regex,vb.net,parsing,.net,Html,Regex,Vb.net,Parsing,我整天都在编程,试图实现我的目标。起初,我尝试使用正则表达式(Regex),但它太复杂了,也不够完善,尽管它确实在某种程度上达到了我的目标 这是指向我正在使用的站点的链接: http://thewarezscene.org/forums/memberlist.php?start=20 如果您查看页面的来源(网站目前似乎已关闭),您将注意到此重复链接标签: <a href="http://thewarezscene.org/forums/username-u14088.html"&

我整天都在编程,试图实现我的目标。起初,我尝试使用正则表达式(Regex),但它太复杂了,也不够完善,尽管它确实在某种程度上达到了我的目标

这是指向我正在使用的站点的链接:

http://thewarezscene.org/forums/memberlist.php?start=20    
如果您查看页面的来源(网站目前似乎已关闭),您将注意到此重复链接标签:

<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>


每个新页面都有一个注册到该站点的所有人的列表。增加20。例如,开始=20,开始=40,开始=60。我知道如何从HTML页面中获取所有元素,但要仅获取特定链接格式的链接文本,最好的解决方案是什么?

使用类似的HTML解析器来解析HTML

什么是Html敏捷包(HAP)

这是一个敏捷的HTML解析器,它构建读/写DOM并支持纯XPATH或XSLT(您实际上不必理解XPATH或XSLT就可以使用它,不用担心……)。它是一个.NET代码库,允许您解析“web外”HTML文件。解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.Xml非常相似,但适用于HTML文档(或流)


如果要获取href中存在参数“start”的所有元素,则Regex不适合解析HTML,如中所示。

$("a[href*='start=']")

Oded如何获得HTML敏捷包?它已经在.NET框架中使用了吗?还是我必须从某个地方下载的图书馆?@43.52.4D。-我确实提供了一个链接。它确实有下载。即使我没有,你也可以用谷歌搜索。请努力一点。我用谷歌搜索了一下,我只是想确认一下。我正在自学编程,这需要努力。@43.52.4D。-你真好。但在提供链接时要求下载并不表示努力。。。