Python 从TXT文件中删除标点符号和大小写_Python

Python 从TXT文件中删除标点符号和大小写

python

Python 从TXT文件中删除标点符号和大小写,python,Python,我在python中遇到了一个小问题。我有剧本： import nltk def analyzer(): inputfile=raw_input("Which file?: ") review=open(inputfile,'r') review=review.read() tokens=review.split() for token in tokens: if token in string.punctuation:

我在python中遇到了一个小问题。我有剧本：

import nltk
def analyzer():
    inputfile=raw_input("Which file?: ")
    review=open(inputfile,'r')
    review=review.read()
    tokens=review.split()

    for token in tokens:
        if token in string.punctuation:         
            tokens.remove(token)
        token=tokens.lower()

它应该导入一个txt文件，将其拆分为单词，然后删除标点符号并将其全部转换为小写。应该不难吧？它返回时标点符号和大写字母保持不变。没有错误消息，它似乎忽略了部分代码

任何帮助都将不胜感激

我假设您导入了

字符串

模块。更换线路

if token in string.punctuation:         
     tokens.remove(token)
     token=tokens.lower()

与

此外，字符串在python中是不可变的，因此分配给它们只是重新绑定名称，而不会更改原始标记。如果您想更改令牌，则可以执行以下操作

tokens = [token.translate(None,string.punctuation).lower() for token in tokens]

就我个人而言，我会像这样清理整件事：

def read_tokens(path):
    import string
    with open(path) as f:
        tokens = f.read().split()
        return [ token.translate(None, string.punctuation).lower() for token in tokens ]

read_tokens(raw_input("which file?"))

请注意，这只是对原始意图的忠实翻译，这意味着像

'test.me'

这样的“单词”将变成

['testme']

，而不是

['test'，'me']

我假设您导入了

字符串

模块。更换线路

if token in string.punctuation:         
     tokens.remove(token)
     token=tokens.lower()

与

此外，字符串在python中是不可变的，因此分配给它们只是重新绑定名称，而不会更改原始标记。如果您想更改令牌，则可以执行以下操作

tokens = [token.translate(None,string.punctuation).lower() for token in tokens]

就我个人而言，我会像这样清理整件事：

def read_tokens(path):
    import string
    with open(path) as f:
        tokens = f.read().split()
        return [ token.translate(None, string.punctuation).lower() for token in tokens ]

read_tokens(raw_input("which file?"))

请注意，这只是对您原始意图的忠实翻译，这意味着像

'test.me'

这样的“单词”会变成

['testme']

，而不是

['test'，'me']

您的代码中有几个问题：

首先，

split（）

无法拆分标点符号

其次，如果您将

用于令牌中的令牌

，

令牌

实际上是

令牌

中元素的副本，因此对

令牌

的更改不会更改

令牌

试试这个：

import string
import re
def analyzer():
    inputfile=raw_input("Which file?: ")
    review=open(inputfile,'r')
    review=review.read()
    tokens=[e.lower() for e in map(string.strip, re.split("(\W+)", review)) if len(e) > 0 and not re.match("\W",e)]

    print tokens

analyzer()

模式

[FUNC（x）for x in LIST if COND]

给出了一个由FUNC（x）构造的列表，其中x是COND为true时列表中的元素。你可以参考和。对于正则表达式部分，您可以查看代码中的几个问题：

首先，

split（）