从Python中的字符串中删除Wiki标记_Python

从Python中的字符串中删除Wiki标记

python

从Python中的字符串中删除Wiki标记,python,Python,我有一个字符串，其中包含从Wikia页面下载的信息为了解析它的内容，我该如何从页面中去除所有Wiki格式，只留下原始文本下面是一个可能出现的示例： #REDIRECT[[Blah]] {{ I have some stuff in here }} [[I also have some stuff in here|and here]] [[http://blehthisisfake.com Link to a fake website]] <span class="plain

我有一个字符串，其中包含从Wikia页面下载的信息

为了解析它的内容，我该如何从页面中去除所有Wiki格式，只留下原始文本

下面是一个可能出现的示例：

#REDIRECT[[Blah]]

{{
I have some stuff in here
}}
[[I also have some stuff in here|and here]]
[[http://blehthisisfake.com Link to a fake website]]

&lt;span class="plainlinks"&gt;This is quite useless. Why was [[this page]] even created?&lt;/span&gt;

&lt;nowiki&gt;There are more HTML tags, they should probably all be stripped...&lt;/nowiki&gt;

There is random text in here. bleh bleh bleh

I'm not sure what single [brackets] do, but they should be stripped too...

预期产出：

There is random text in here. bleh bleh bleh I'm not sure what single do, but they should be stripped too... 这里有随机文本。呜呜呜呜我不知道单身汉会做什么，但他们也应该脱光衣服。。。

有没有一个模块可以做到这一点？

谷歌搜索“python wiki parser”出现了，它会删除并替换标记（有关详细信息，请参阅链接中的源代码）。

你能粘贴一些示例文本吗？它可能包含很多内容，但我会尝试做一些改进。另外，我有点希望有一个模块可以做到这一点，但它看起来好像没有。请改进你的问题，包括任何样本，你正在使用的语料库进行测试。另外，包括一个正确格式的预期输出示例，以便人们了解您试图实现的结果。我正在研究您现在正在谈论的内容。也许您正在寻找？试着用这种方式处理正则表达式。@cheezy如果不解析它，你打算如何知道要删除什么？正如@jordanm所说，你无法避免解析它来做你想做的事情。这里的问题是怎么做？答案是解析器（从广义上讲，wiki标记通常可以用有限自动机解析，在编译器世界中通常称为“lexer”）提供一系列可识别的片段，如：开始链接文本结束链接。输出所有“文本”而不是wiki标记，您就得到了所需的内容。