Vb.net Visual Basic-从源代码获取URL列表

Vb.net Visual Basic-从源代码获取URL列表,vb.net,visual-studio,text-parsing,Vb.net,Visual Studio,Text Parsing,我一直在从事一项计划,该计划将使我能够监控哪些公司的客户正在链接到我们的网站。如果我可以让它工作,它将节省大量的时间被浪费在搜索客户网站手动 目前,我有一个数据库,存储所有客户端主页URL。我的程序正在这些URL中循环,获取它们的源代码并将源代码放入文本框中。然后,它在文本框中搜索“我的公司”URL,并返回“真”或“假”值 如果为“真”,则链接存在,但如果为“假”,我需要我的程序搜索同一站点上的其他页面,并检查链接是否存在于其他任何地方 为此,我需要我的程序循环浏览源代码(已经在文本框中),找到

我一直在从事一项计划,该计划将使我能够监控哪些公司的客户正在链接到我们的网站。如果我可以让它工作,它将节省大量的时间被浪费在搜索客户网站手动

目前,我有一个数据库,存储所有客户端主页URL。我的程序正在这些URL中循环,获取它们的源代码并将源代码放入文本框中。然后,它在文本框中搜索“我的公司”URL,并返回“真”或“假”值

如果为“真”,则链接存在,但如果为“假”,我需要我的程序搜索同一站点上的其他页面,并检查链接是否存在于其他任何地方


为此,我需要我的程序循环浏览源代码(已经在文本框中),找到链接到同一站点上其他页面的所有其他URL(例如www.example.com、www.example.com/contact-us、www.example.com/about),并将其存储在列表中。我不知道怎么做?

基于……的解决方案怎么样

Dim MyRegex作为新的正则表达式(“href=”(?(?:(?!javascript)(?!))[a-zA-Z0-9\~\!\\\\\\\\$”+“\%\^\\\\\\*\(\)\\-\=\+\\\/\.\:;\,]+”(?\\\\\\\\\\\\\\\\\\\,]+”(?\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\
将匹配项设置为MatchCollection=MyRegex.matches(textbox1.text)
对于匹配中的每个项目
ListBox1.Items.Add(item.ToString())
下一个

然后你需要过滤掉那些不相关的网站?

谢谢,伙计,这正是我想要的!
            Dim MyRegex As New Regex("href=""(?<URL>(?:(?!javascript)(?!#))[a-zA-Z0-9\~\!\@\#\$" + "\%\^\&amp;\*\(\)_\-\=\+\\\/\?\.\:\;\'\,]+)" + "(?<!(?:\.png|\.js|\.jpg|\.jpeg|\.css|\.gif|\.zip|\.r" + "ar))""(?:$|>|\s)", RegexOptions.Multiline Or RegexOptions.CultureInvariant Or RegexOptions.Compiled)

            Dim matches As MatchCollection = MyRegex.Matches(textbox1.text)
            For Each item In matches
                ListBox1.Items.Add(item.ToString())

            Next