RegEx,VB.Net:在HTML中查找链接(同样是jepp)

RegEx,VB.Net:在HTML中查找链接(同样是jepp),regex,vb.net,Regex,Vb.net,首先,我的第一篇文章,所以如果我错过了什么,请原谅我 问题很简单。我想从html文档中提取所有链接。 我当然在寻找解决办法。我尝试了至少30种,但没有一种效果足够好,大多数根本不起作用 我最终得到了这个(VB.Net): Dim rx As New System.Text.regular expressions.Regex(“dfTHISISNOTALINK”&_ “href=”“narf.com”“ghjkldfghj”_ ) '检查正则表达式匹配 Diagnostics.Debug.Writ

首先,我的第一篇文章,所以如果我错过了什么,请原谅我

问题很简单。我想从html文档中提取所有链接。 我当然在寻找解决办法。我尝试了至少30种,但没有一种效果足够好,大多数根本不起作用

我最终得到了这个(VB.Net):

Dim rx As New System.Text.regular expressions.Regex(“dfTHISISNOTALINK”&_
“href=”“narf.com”“ghjkldfghj”_
)
'检查正则表达式匹配
Diagnostics.Debug.WriteLine(“匹配:”&mt.Count)
对于i,整数=0到mt计数-1
Diagnostics.Debug.WriteLine(“&mt(i).Value)
下一个
Diagnostics.Debug.WriteLine(------------)
'从结果中获取URL
对于i,整数=0到mt计数-1
Diagnostics.Debug.WriteLine(“&mt(i).Value.Substring(mt(i).Value.TrimEnd(”“).LastIndexOf(”“).Trim(”“))
下一个
调试输出:

    Matches: 3
      <a title="datenkrake" href="http://www.google.de"
      <a href="www.bing.de"
      <a href="/"
    ----------
      http://www.google.de
      www.bing.de
      /
匹配项:3

您似乎错过了使用Html Agility Pack的选项之一,是否需要使用正则表达式?真正的Html是什么?你能指出一页在哪里吗?有可能将数据转换成XML。至少它可以工作。我在第一条评论中尝试了@GRUNGER-mentoin的正则表达式(
真正的html…它应该可以与任何网站一起工作,尽可能好,即使是格式错误的(x)html。我也在golem.de上试过我的代码(发现了一个bug,我的代码没有捕获空href参数)。
    Matches: 3
      <a title="datenkrake" href="http://www.google.de"
      <a href="www.bing.de"
      <a href="/"
    ----------
      http://www.google.de
      www.bing.de
      /