我有一段文字的文本文件,希望用Python迭代每个单词

我有一段文字的文本文件,希望用Python迭代每个单词,python,Python,我该怎么做?我想遍历每个单词,看看它是否符合某些参数(例如,它是否长于4个字母……等等,但这并不重要) 文本文件实际上是一个带有标点和空格的杂乱无章的文本,很像这篇文章。尝试使用字符串 f = open('your_file') for line in f: for word in line.split(): # do something 如果您希望它没有标点符号: f = open('your_file') for line in f: for word in

我该怎么做?我想遍历每个单词,看看它是否符合某些参数(例如,它是否长于4个字母……等等,但这并不重要)

文本文件实际上是一个带有标点和空格的杂乱无章的文本,很像这篇文章。

尝试使用字符串

f = open('your_file')
for line in f:
    for word in line.split():
        # do something
如果您希望它没有标点符号:

f = open('your_file')
for line in f:
    for word in line.split():
        word = word.strip('.,?!')
        # do something

你可以简单地

删除标点符号可能会有帮助-
对于re.sub(“[^\w]+”,“,段落)。split():
我现在正是这么做的,为了“做点什么”,我正在打印单词-但是出于某些原因,没有任何东西打印出来。谢谢,这对我的文件有标点符号很有帮助

   f = open(filename,"r");
   lines = f.readlines();
   for i in lines:
   thisline = i.split(" ");
data=open("file").read().split()
for item in data:
   if len(item)>4:
      print "longer than 4: ",item