Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/284.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# 如何从一个词到另一个词删除多行文本_C#_Regex_Web Scraping - Fatal编程技术网

C# 如何从一个词到另一个词删除多行文本

C# 如何从一个词到另一个词删除多行文本,c#,regex,web-scraping,C#,Regex,Web Scraping,我正在将网页上的数据刮到文本文件中,因为我想删除一些不相关的内容,如 我正在尝试将输出作为删除其他数据 我试过了 source = regax.replace(source, </h3>.*<h3 class="thick scoretime "> ","</h3><h3 class="thick scoretime "> ") 但它不起作用。有人能给我指出正确的方向吗?使用-它是.NET的开源HTML解析器 什么是Html敏捷包HAP 这是一个

我正在将网页上的数据刮到文本文件中,因为我想删除一些不相关的内容,如

我正在尝试将输出作为删除其他数据

我试过了

source = regax.replace(source, </h3>.*<h3 class="thick scoretime "> ","</h3><h3 class="thick scoretime "> ")
但它不起作用。有人能给我指出正确的方向吗?

使用-它是.NET的开源HTML解析器

什么是Html敏捷包HAP

这是一个敏捷的HTML解析器,它构建读/写DOM并支持纯XPATH或XSLT。实际上,使用它不需要理解XPATH或XSLT,不用担心。。。。它是一个.NET代码库,允许您解析web HTML文件。解析器对现实世界中格式错误的HTML非常宽容。对象模型与System.Xml非常相似,但适用于HTML文档或流

您可以使用它来查询HTML并提取所需的任何数据

如果最终需要根据您的要求基于正则表达式模式提取文本,您可以这样做:

Regex regex = new Regex("</h3>(?<Junk>.*)<h3 class=\"thick scoretime \">",
    RegexOptions.None | RegexOptions.Singleline);
var extractedString = regex.Replace(htmlString, "${Junk}");

下面将搜索所有
 string file = "TheEntireFileIsInThisBuffer";
 string pattern = "<div.*</div>"; 
 RegEx rgx = new RegEx(pattern);
 string fileWithOutDivs = rgx.Replace(file, System.String.Empty);

你能澄清你的问题吗。您具体想删除什么?您可能不想使用正则表达式。显示的正则表达式将用空格替换整个文件。你需要一些合理的屏障,比如如果你想删除所有的头,我可以告诉你怎么做@evanmcdonnal我想从中删除所有数据好吧,我有一个简单的正则表达式。@SteveWellens我与DOM和HAP混淆了,你能帮忙吗?如果我的文件有很多div标记,我只想删除一个div标记之间的数据怎么办?@sam,那么我需要更多的信息来确定你要删除的特定div;这将是一个一次性的解决方案,还是应该与许多网页一起使用?从这个页面上,我试图获取该队的圣路易斯超级链接~0-0~老虎队~2006年2月18日~liga MX~日期~0-0~全日制~0-0之类的活动信息。我想获取多个页面的活动信息。@sam你的问题并没有要求你想要的所有功能,对于StackOverflow来说,您想要做的是一个太大的问题。除了匹配div之外,您还可以将锚点标记与href匹配,但您需要研究如何解析html。我不能给你写一些简单的10行解决方案来解析那个页面,这将是更多的工作。学习使用FSX建议的库可能是一个良好的开端。祝你好运