如何从VB.net维基百科页面的xml中获取段落文本

如何从VB.net维基百科页面的xml中获取段落文本,xml,regex,vb.net,Xml,Regex,Vb.net,简单介绍一下这个问题的背景:我正在vb.net中开发一个NLP(自然语言处理)应用程序,我决定使用Wikipedia作为我的文本训练集 我下载了维基百科作为XML文件,但我在提取纯文本时遇到了问题。我一直在尝试使用正则表达式从xml文件中获取段落的文本,但它似乎没有那么好地工作。我遇到的问题是,当您查看wiki页面(例如:)时,(指向其他wiki文章的)内部链接仅显示为文本,但在xml文件中它们显示为:[[自由关联(共产主义和无政府主义)|自由关联]]。我不想要方括号,因为这只是链接的格式,我不

简单介绍一下这个问题的背景:我正在vb.net中开发一个NLP(自然语言处理)应用程序,我决定使用Wikipedia作为我的文本训练集

我下载了维基百科作为XML文件,但我在提取纯文本时遇到了问题。我一直在尝试使用正则表达式从xml文件中获取段落的文本,但它似乎没有那么好地工作。我遇到的问题是,当您查看wiki页面(例如:)时,(指向其他wiki文章的)内部链接仅显示为文本,但在xml文件中它们显示为:[[自由关联(共产主义和无政府主义)|自由关联]]。我不想要方括号,因为这只是链接的格式,我不想要第二个页面ID(自由关联),因为这不是文本对读者的显示方式。还有一个我不想删除的样式问题(我很确定我可以用正则表达式解决这个问题,我目前正在使用
Dim表达式作为新的正则表达式(“/\/”)

要从xml文件中获取实际文本,我使用以下方法:

Dim reader As XmlTextReader = New XmlTextReader("location of xml file")    

Do While (reader.Read())
                Select Case reader.NodeType
                    Case XmlNodeType.Text 'Display the text in each element.
                         'code goes here
                End Select

Loop
我一直在互联网上寻找帮助,我找到了一些有用的文章,但到目前为止我的代码仍然不起作用。任何帮助(甚至有用的链接)都会很好


谢谢!

我不知道这是否有帮助,而且它与您当前的方法非常不同(因此只作为注释放进去)-@JohnBustos谢谢你的快速回复!实际上我已经写了我自己的“只显示网页中的文本”,但由于我已经将整个wiki作为一个xml文件,我不想浪费时间一次下载一个页面。为什么不使用其他来源呢?或者,只需复制/粘贴文章(从你的浏览器)进入文本文档并使用它。@Cyborgx37 wiki上大约有400万页,因此手动复制文本是不可行的。此外,我认为没有可用的wiki纯文本下载!@Cyborgx37我以前在类似项目中使用过gutenberg.org上的文档,但我非常喜欢使用wiki和wiki的想法我有一个更大、更值得拥有的语料库。不过谢谢你的投入。