Python 从原始文本中标识选项卡中的部分

Python 从原始文本中标识选项卡中的部分,python,python-2.7,text,text-analysis,Python,Python 2.7,Text,Text Analysis,考虑一下上面的文本。如果您查看源代码,您将看到主文本的显示方式与页面中的显示方式完全相同——没有HTML分区或任何其他方式可以明显地在节中查找段落/选项卡 是否有一种方法可以自动识别并从原始文本中删除选项卡式的部分 我注意到的一件事是,当我将文本编码为text=unicode(原始文本).encode(“utf-8”)时,我可以看到一堆\n行跳过。但是没有。(这可能不是一个有用的思考方向,而只是一个想法) 编辑:以下作品 text = unicode(raw_text).encode("utf-

考虑一下上面的文本。如果您查看源代码,您将看到主文本的显示方式与页面中的显示方式完全相同——没有HTML分区或任何其他方式可以明显地在节中查找段落/选项卡

是否有一种方法可以自动识别并从原始文本中删除选项卡式的部分

我注意到的一件事是,当我将文本编码为
text=unicode(原始文本).encode(“utf-8”)
时,我可以看到一堆\n行跳过。但是没有。(这可能不是一个有用的思考方向,而只是一个想法)

编辑:以下作品

text = unicode(raw_text).encode("utf-8")
y = [x for x in text.split("\n") if "     " not in x]
final = " ".join(y)

嗯,在查看页面后,它们是用空格而不是制表符“制表”的;寻找标签是没有用的。看起来这个部分有5个空格

raw_text.replace('     ','')
要替换5个空格的所有占用项

from re import sub

...

raw_text = sub(r'     .*\n', '', raw_text)

嗯,很有趣。我应该注意到这一点。我想我可以试着找出前面有5个空格的第一句和最后一句话。最后,我想删除所有的文本,然后你可以使用正则表达式。我将更新我的答案,以显示如何做到这一点…好的,那将是伟大的。我只是写了一些快速有效的东西(不使用re)。我将把它添加到我的问题中,但接受你的回答。谢谢你最新的答案不是我想要的。我不想只删除制表符,而是要删除所有以制表符形式出现的文本(因此任何以5个空格开头的行),我要说
\n\s\s
是段落部分,而换行符后跟两个以上空格则是以制表符形式出现的部分。正则表达式似乎是一条可行之路。