通过LINQ中的模式查找动态单词_Linq_Linqpad

通过LINQ中的模式查找动态单词

linq

通过LINQ中的模式查找动态单词,linq,linqpad,Linq,Linqpad,下面是html的启动方式商业文件 Some company DEPARTMENT: Legal Process FUNCTION: Computer Department PROCESS: Process Server PROCEDURE: ABC Process Server <

下面是html的启动方式

商业文件

<p>Some company</p>
<p>
<p>DEPARTMENT: Legal Process</p>
<p>FUNCTION: Computer Department</p>
<p>PROCESS: Process Server</p>
<p>PROCEDURE: ABC Process Server</p>
<p>OWNER: Some User</p>
<p>REVISION DATE: 06/10/2013</p>
<p>
<p>OBJECTIVE: To ensure that the process server receive their invoices the following day.</p>
<p>
<p>WHEN TO PERFORM: Daily</p>
<p>
<p>WHO WILL PERFORM? Computer Team</p>
<p>
<p>TIME TO COMPLETE: 5 minutes</p>
<p>
<p>TECHNOLOGY REQUIREMENT(S): </p>
<p>
<p>SOURCE DOCUMENT(S): N/A</p>
<p>
<p>CODES AND DEFINITIONS: N/A</p>
<p>
<table border="1">
  <tr>
    <td>
      <p>KPI&rsquo;s: </p>
    </td>
  </tr>
</table>
<p>
<table border="1">
  <tr>
    <td>
      <p>RISKS:  </p>
    </td>
  </tr>
</table>

它可以用许多LINQ语句完成，但使用时只需要几行代码。

可以用许多LINQ语句完成，但使用时只需要几行代码。

对于HTML，您需要一个HTML解析器。试试看

正则表达式可以处理与HTML的简单匹配，但不足以处理层次结构，查询的精确度也会降低

任何HTML提取都会因为HTML的结构而变得脆弱。HTML是一种表示格式，创建者很少关心机器解释。至少使用解析器，您将获得表示标记的准确模型（假设它是有效的HTML）。您还可以将实体转换为字符，并能够提取元素的所有后代文本，而无需使用粗体或斜体等内部标记元素

只需添加引用，您就可以在LINQPad中使用任意程序集，对于基于表达式的脚本，您可以自动导入指定的名称空间。

对于HTML，您需要一个HTML解析器。试试看

正则表达式可以处理与HTML的简单匹配，但不足以处理层次结构，查询的精确度也会降低

只需添加引用，您就可以在LINQPad中使用任意程序集，对于基于表达式的脚本，您可以自动导入指定的名称空间。

这个正则表达式在输入数据上非常适合我

(DEPARTMENT|FUNCTION|OBJECTIVE):\s*(?<value>.+)\<

（部门职能目标）：\s*（？。+）\<

结果是多个匹配，每个匹配有两组-第一组为键，第二组为值。我只处理了两个案例，但你可以很容易地添加其他案例

要删除这样解析的信息，可以使用此正则表达式执行以下操作

（？\（部门职能目标）：\s*）（？。+）（？\）

替换字符串为

${start}${end}

忽略价值

在代码中，这看起来有点像这样（在记事本++中快速键入-可能有小错误）

private static readonly ParseDocRegex=new Regex（@“（？\（？部门|职能|目标）：\s*）（？。+）（？\）”，RegexOptions.ExplicitCaptured | RegexOptions.Compiled）；

结果中的html中的


让matches=findValuesRegex.Match（html）
哪里匹配，成功
选择新的
{
namesAndValues=来自matches.AsType（）中的m
选择新的KeyValuePair（m.Groups[“name”].Value，m.Groups[“Value”].Value），
strippedHtml=ParseDocRegex.Replace（html，${start}${end}）
};

这应该会给您提供所需的输出。

这个正则表达式在您的输入数据上对我来说工作得很好

(DEPARTMENT|FUNCTION|OBJECTIVE):\s*(?<value>.+)\<

（部门职能目标）：\s*（？。+）\<