C# 如何使用.NET正则表达式解析HTML文件并找到1。外部链接。2.内部链接

C# 如何使用.NET正则表达式解析HTML文件并找到1。外部链接。2.内部链接,c#,regex,web-crawler,C#,Regex,Web Crawler,我正在写一个程序,将帮助我找出网站是我的竞争对手链接 为了做到这一点,我正在编写一个程序,将解析一个HTML文件,并将生成两个列表:内部链接和外部链接 我将使用内部链接进一步抓取网站,而外部链接实际上是我正在寻找的 如何使用.NET正则表达式解析HTML文件并找到1。外部链接。2.内部链接 提前感谢,, 艾坦·莱维特 编辑:回答问题-否-我不受正则表达式的约束,我可以使用任何其他想法。不要为此使用正则表达式 使用类似的东西,它是专门为解析HTML而设计的。(他们的CodePlex主页上甚至有一个

我正在写一个程序,将帮助我找出网站是我的竞争对手链接

为了做到这一点,我正在编写一个程序,将解析一个HTML文件,并将生成两个列表:内部链接和外部链接

我将使用内部链接进一步抓取网站,而外部链接实际上是我正在寻找的

如何使用.NET正则表达式解析HTML文件并找到1。外部链接。2.内部链接

提前感谢,, 艾坦·莱维特


编辑:回答问题-否-我不受正则表达式的约束,我可以使用任何其他想法。

不要为此使用正则表达式


使用类似的东西,它是专门为解析HTML而设计的。(他们的CodePlex主页上甚至有一个例子,可以找到一个页面中的所有链接。)

我曾使用Regex进行Html解析,它非常快,但现在有了更好的选项,可以降低开发成本


试试看,很好,Beth有一篇关于它的文章,可以找到

你是绑定到RegEx,还是也可以使用第三方DOM解析库?效率高吗?(我的意思是有一天我确实计划将我的应用程序变成一个真正的网络蜘蛛)+1对于HTML Agility Pack,这是一个非常有用的库,用于处理HTML@Eytan Levit:是的,我在几个项目中使用这个库,没有问题