Python中文件的格式化输入

Python中文件的格式化输入,python,nltk,Python,Nltk,我试图将一个文件读入python程序,并在其上应用标记器将文本拆分为一组句子。然而,在我的输出中,我得到了我希望在输出中避免的'/n'字符,因为它可能会阻碍我对句子的进一步处理。 我使用read()命令读取输入。还尝试了readline()。我仍然在输出中获取换行符。有没有避免这种情况的建议 file_sent = open(path,'r') all_sents = file_sent.read() sent_all = print all_sents tokenized_sents = se

我试图将一个文件读入python程序,并在其上应用标记器将文本拆分为一组句子。然而,在我的输出中,我得到了我希望在输出中避免的'/n'字符,因为它可能会阻碍我对句子的进一步处理。 我使用read()命令读取输入。还尝试了readline()。我仍然在输出中获取换行符。有没有避免这种情况的建议

file_sent = open(path,'r')
all_sents = file_sent.read()
sent_all = print all_sents
tokenized_sents = sent_tokenize(sent_all)

如果要完全删除换行符,请执行以下操作:

all_sents = file_sent.read().replace('\n', '')
如果要将其替换为空格:

all_sents = file_sent.read().replace('\n', ' ')

显然,如果需要,您可以用其他内容替换它们。

“\n”是换行符的文本符号。我知道这一点,但我不希望在输入中使用它。该代码不应运行。行
sent\u all=print all\u sents
导致“无效语法”错误。你在做什么来让这一切顺利?这是真的,谢谢!但是我想知道是否有其他的方法我们也可以这样做。你到底在想什么样的方法呢?您可以在处理过程中的其他某个点访问它。例如,如果您将其拆分为单词,则可以使用
.split()
,它可以很好地处理任何类型的空白,包括换行符,并且它们将在此时消失。