HTML两个文本之间的所有文本<;部门>;标签vb.net

HTML两个文本之间的所有文本<;部门>;标签vb.net,html,vb.net,linq,Html,Vb.net,Linq,我正在开发一个程序,将HTML文本转换成可以放入数据库的文章 html如下所示: <HTML> <div class="article" code="article-0001" title="title"> <p>blablabla</p> <p>blablablablablabblablablablablablablablabla</p> <p>blabl

我正在开发一个程序,将HTML文本转换成可以放入数据库的文章

html如下所示:

<HTML>
    <div class="article" code="article-0001" title="title">
        <p>blablabla</p>
        <p>blablablablablabblablablablablablablablabla</p>
        <p>blablablablablablablablablabla</p>
        <p></p>
        <p>blablablablablablablablablblablablablablablablablablablablablablablablablabla</p>
        <p></p>
        <p>blablablablablablablablablablablablablabla</p>
        <p></p>
    </div>
    <div class="article" code="article-0002" title="title2">
        <p>blablabla</p>
        <p>blablablablablabblablablablablablablablabla</p>
        <p>blablablablablablablablablabla</p>
        <p></p>
        <p>blablablablablablablablablblablablablablablablablablablablablablablablablabla</p>
        <p></p>
        <p>blablablablablablablablablablablablablabla</p>
        <p></p>
    </div>
</HTML>

喋喋不休

布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉

布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉

布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉

布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉

喋喋不休

布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉

布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉

布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉

布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉布拉

我知道如何读取
标记中的属性。 我想读出div标记开始和结束之间的所有信息

div标记之间的文本是HTML组成的文本,我想将其存储在数据库中。这意味着必须读取其中的所有HTML标记(如下面看到的
&

如何在VB.net中阅读所有这些文本 目前,我正在使用
Xdocument
&
Xelement
与linq结合使用,但我不知道如何做到这一点。

如果您希望div标记中的文本不使用HTML标记,即

如果要保留标记,请使用,即:


我很幸运地处理了html。你也可以在nuget上找到它


使用
Xdocument
Xelement
的一个潜在问题是,html通常不一定是xml。

向我们展示您迄今为止的代码。我在将html解析为文本并使用字符串函数方面取得了更大的成功。感谢innerText和innerXml部分是我所需要的。我现在修复了它,创建了元素的XmlReader并使用了它的ReadInnerXml函数
Dim doc = New System.Xml.XmlDocument()
doc.LoadXml(xml)
Dim divs = doc.FirstChild.ChildNodes
For Each div As System.Xml.XmlNode In divs
    Console.WriteLine(div.InnerText)
Next
Dim doc = New System.Xml.XmlDocument()
doc.LoadXml(xml)
Dim divs = doc.FirstChild.ChildNodes
For Each div As System.Xml.XmlNode In divs
    Console.WriteLine(div.InnerXml.ToString())
Next