如何在Python中用正则表达式标记文本

如何在Python中用正则表达式标记文本,python,tokenize,corpus,linguistics,Python,Tokenize,Corpus,Linguistics,有没有什么方法可以清除文本中的空格和圆点,没有NLTK的逗号,特别是正则表达式?如果我理解了你的问题,你可以试试这段代码 import re text = "Split.this,text in seven.separate,words" myexp=re.compile(r'[\s.,]') print myexp.split(text) 这会给你这个输出 ['Split', 'this', 'text', 'in', 'seven', 'separate', 'words'] 您只

有没有什么方法可以清除文本中的空格和圆点,没有NLTK的逗号,特别是正则表达式?

如果我理解了你的问题,你可以试试这段代码

import re

text = "Split.this,text in seven.separate,words"

myexp=re.compile(r'[\s.,]')

print myexp.split(text)
这会给你这个输出

['Split', 'this', 'text', 'in', 'seven', 'separate', 'words']

您只是想删除所有空格、点和逗号等,而不受任何其他约束吗?使用
replace
,或者更好的是使用
translate
方法。我还想创建一个列表。一个什么的列表?删除后剩下的角色是什么?这是一个面向专业和热心程序员的问答网站。它不是一个如何编程的网站,也不是免费网站的调试代码。请阅读有关
re
模块的文档。