C# 如何从一个词到另一个词删除多行文本_C#_Regex_Web Scraping

C# 如何从一个词到另一个词删除多行文本

c# regex web-scraping

C# 如何从一个词到另一个词删除多行文本,c#,regex,web-scraping,C#,Regex,Web Scraping,我正在将网页上的数据刮到文本文件中，因为我想删除一些不相关的内容，如我正在尝试将输出作为删除其他数据我试过了 source = regax.replace(source, </h3>.*<h3 class="thick scoretime "> ","</h3><h3 class="thick scoretime "> ") 但它不起作用。有人能给我指出正确的方向吗？使用-它是.NET的开源HTML解析器什么是Html敏捷包HAP 这是一个

我正在将网页上的数据刮到文本文件中，因为我想删除一些不相关的内容，如

我正在尝试将输出作为删除其他数据

我试过了

source = regax.replace(source, </h3>.*<h3 class="thick scoretime "> ","</h3><h3 class="thick scoretime "> ")

但它不起作用。有人能给我指出正确的方向吗？

使用-它是.NET的开源HTML解析器

什么是Html敏捷包HAP

这是一个敏捷的HTML解析器，它构建读/写DOM并支持纯XPATH或XSLT。实际上，使用它不需要理解XPATH或XSLT，不用担心。。。。它是一个.NET代码库，允许您解析web HTML文件。解析器对现实世界中格式错误的HTML非常宽容。对象模型与System.Xml非常相似，但适用于HTML文档或流

您可以使用它来查询HTML并提取所需的任何数据

如果最终需要根据您的要求基于正则表达式模式提取文本，您可以这样做：

Regex regex = new Regex("</h3>(?<Junk>.*)<h3 class=\"thick scoretime \">",
    RegexOptions.None | RegexOptions.Singleline);
var extractedString = regex.Replace(htmlString, "${Junk}");

下面将搜索所有

 string file = "TheEntireFileIsInThisBuffer";
 string pattern = "<div.*</div>"; 
 RegEx rgx = new RegEx(pattern);
 string fileWithOutDivs = rgx.Replace(file, System.String.Empty);

你能澄清你的问题吗。您具体想删除什么？您可能不想使用正则表达式。显示的正则表达式将用空格替换整个文件。你需要一些合理的屏障，比如如果你想删除所有的头，我可以告诉你怎么做@evanmcdonnal我想从中删除所有数据好吧，我有一个简单的正则表达式。@SteveWellens我与DOM和HAP混淆了，你能帮忙吗？如果我的文件有很多div标记，我只想删除一个div标记之间的数据怎么办？@sam，那么我需要更多的信息来确定你要删除的特定div；这将是一个一次性的解决方案，还是应该与许多网页一起使用？从这个页面上，我试图获取该队的圣路易斯超级链接~0-0~老虎队~2006年2月18日~liga MX~日期~0-0~全日制~0-0之类的活动信息。我想获取多个页面的活动信息。@sam你的问题并没有要求你想要的所有功能，对于StackOverflow来说，您想要做的是一个太大的问题。除了匹配div之外，您还可以将锚点标记与href匹配，但您需要研究如何解析html。我不能给你写一些简单的10行解决方案来解析那个页面，这将是更多的工作。学习使用FSX建议的库可能是一个良好的开端。祝你好运