Python 从原始文本中标识选项卡中的部分_Python_Python 2.7_Text_Text Analysis

Python 从原始文本中标识选项卡中的部分

python python-2.7 text

Python 从原始文本中标识选项卡中的部分,python,python-2.7,text,text-analysis,Python,Python 2.7,Text,Text Analysis,考虑一下上面的文本。如果您查看源代码，您将看到主文本的显示方式与页面中的显示方式完全相同——没有HTML分区或任何其他方式可以明显地在节中查找段落/选项卡是否有一种方法可以自动识别并从原始文本中删除选项卡式的部分我注意到的一件事是，当我将文本编码为text=unicode（原始文本）.encode（“utf-8”）时，我可以看到一堆\n行跳过。但是没有。（这可能不是一个有用的思考方向，而只是一个想法）编辑：以下作品 text = unicode(raw_text).encode("utf-

考虑一下上面的文本。如果您查看源代码，您将看到主文本的显示方式与页面中的显示方式完全相同——没有HTML分区或任何其他方式可以明显地在节中查找段落/选项卡

是否有一种方法可以自动识别并从原始文本中删除选项卡式的部分

我注意到的一件事是，当我将文本编码为

text=unicode（原始文本）.encode（“utf-8”）

时，我可以看到一堆\n行跳过。但是没有。（这可能不是一个有用的思考方向，而只是一个想法）

编辑：以下作品

text = unicode(raw_text).encode("utf-8")
y = [x for x in text.split("\n") if "     " not in x]
final = " ".join(y)

嗯，在查看页面后，它们是用空格而不是制表符“制表”的；寻找标签是没有用的。看起来这个部分有5个空格

raw_text.replace('     ','')

要替换5个空格的所有占用项

from re import sub

...

raw_text = sub(r'     .*\n', '', raw_text)

嗯，很有趣。我应该注意到这一点。我想我可以试着找出前面有5个空格的第一句和最后一句话。最后，我想删除所有的文本，然后你可以使用正则表达式。我将更新我的答案，以显示如何做到这一点…好的，那将是伟大的。我只是写了一些快速有效的东西（不使用re）。我将把它添加到我的问题中，但接受你的回答。谢谢你最新的答案不是我想要的。我不想只删除制表符，而是要删除所有以制表符形式出现的文本（因此任何以5个空格开头的行），我要说

\n\s\s

是段落部分，而换行符后跟两个以上空格则是以制表符形式出现的部分。正则表达式似乎是一条可行之路。