从Python中的字符串中删除Wiki标记

从Python中的字符串中删除Wiki标记,python,Python,我有一个字符串,其中包含从Wikia页面下载的信息 为了解析它的内容,我该如何从页面中去除所有Wiki格式,只留下原始文本 下面是一个可能出现的示例: #REDIRECT[[Blah]] {{ I have some stuff in here }} [[I also have some stuff in here|and here]] [[http://blehthisisfake.com Link to a fake website]] <span class="plain

我有一个字符串,其中包含从Wikia页面下载的信息

为了解析它的内容,我该如何从页面中去除所有Wiki格式,只留下原始文本

下面是一个可能出现的示例:

#REDIRECT[[Blah]]

{{
I have some stuff in here
}}
[[I also have some stuff in here|and here]]
[[http://blehthisisfake.com Link to a fake website]]

<span class="plainlinks">This is quite useless. Why was [[this page]] even created?</span>

<nowiki>There are more HTML tags, they should probably all be stripped...</nowiki>

There is random text in here. bleh bleh bleh

I'm not sure what single [brackets] do, but they should be stripped too...
预期产出:

There is random text in here. bleh bleh bleh I'm not sure what single do, but they should be stripped too... 这里有随机文本。呜呜呜呜 我不知道单身汉会做什么,但他们也应该脱光衣服。。。
有没有一个模块可以做到这一点?

谷歌搜索“python wiki parser”出现了,它会删除并替换标记(有关详细信息,请参阅链接中的源代码)。

你能粘贴一些示例文本吗?它可能包含很多内容,但我会尝试做一些改进。另外,我有点希望有一个模块可以做到这一点,但它看起来好像没有。请改进你的问题,包括任何样本,你正在使用的语料库进行测试。另外,包括一个正确格式的预期输出示例,以便人们了解您试图实现的结果。我正在研究您现在正在谈论的内容。也许您正在寻找?试着用这种方式处理正则表达式。@cheezy如果不解析它,你打算如何知道要删除什么?正如@jordanm所说,你无法避免解析它来做你想做的事情。这里的问题是怎么做?答案是解析器(从广义上讲,wiki标记通常可以用有限自动机解析,在编译器世界中通常称为“lexer”)提供一系列可识别的片段,如:开始链接文本结束链接。输出所有“文本”而不是wiki标记,您就得到了所需的内容。