如何从VB.net维基百科页面的xml中获取段落文本_Xml_Regex_Vb.net

如何从VB.net维基百科页面的xml中获取段落文本

xml regex vb.net

如何从VB.net维基百科页面的xml中获取段落文本,xml,regex,vb.net,Xml,Regex,Vb.net,简单介绍一下这个问题的背景：我正在vb.net中开发一个NLP（自然语言处理）应用程序，我决定使用Wikipedia作为我的文本训练集我下载了维基百科作为XML文件，但我在提取纯文本时遇到了问题。我一直在尝试使用正则表达式从xml文件中获取段落的文本，但它似乎没有那么好地工作。我遇到的问题是，当您查看wiki页面（例如：）时，（指向其他wiki文章的）内部链接仅显示为文本，但在xml文件中它们显示为：[[自由关联（共产主义和无政府主义）|自由关联]]。我不想要方括号，因为这只是链接的格式，我不

简单介绍一下这个问题的背景：我正在vb.net中开发一个NLP（自然语言处理）应用程序，我决定使用Wikipedia作为我的文本训练集

我下载了维基百科作为XML文件，但我在提取纯文本时遇到了问题。我一直在尝试使用正则表达式从xml文件中获取段落的文本，但它似乎没有那么好地工作。我遇到的问题是，当您查看wiki页面（例如：）时，（指向其他wiki文章的）内部链接仅显示为文本，但在xml文件中它们显示为：[[自由关联（共产主义和无政府主义）|自由关联]]。我不想要方括号，因为这只是链接的格式，我不想要第二个页面ID（自由关联），因为这不是文本对读者的显示方式。还有一个我不想删除的样式问题（我很确定我可以用正则表达式解决这个问题，我目前正在使用

Dim表达式作为新的正则表达式（“/\/”）

）

要从xml文件中获取实际文本，我使用以下方法：

Dim reader As XmlTextReader = New XmlTextReader("location of xml file")    

Do While (reader.Read())
                Select Case reader.NodeType
                    Case XmlNodeType.Text 'Display the text in each element.
                         'code goes here
                End Select

Loop

我一直在互联网上寻找帮助，我找到了一些有用的文章，但到目前为止我的代码仍然不起作用。任何帮助（甚至有用的链接）都会很好

谢谢！

我不知道这是否有帮助，而且它与您当前的方法非常不同（因此只作为注释放进去）-@JohnBustos谢谢你的快速回复！实际上我已经写了我自己的“只显示网页中的文本”，但由于我已经将整个wiki作为一个xml文件，我不想浪费时间一次下载一个页面。为什么不使用其他来源呢？或者，只需复制/粘贴文章（从你的浏览器）进入文本文档并使用它。@Cyborgx37 wiki上大约有400万页，因此手动复制文本是不可行的。此外，我认为没有可用的wiki纯文本下载！@Cyborgx37我以前在类似项目中使用过gutenberg.org上的文档，但我非常喜欢使用wiki和wiki的想法我有一个更大、更值得拥有的语料库。不过谢谢你的投入。