Python中文件的格式化输入_Python_Nltk

Python中文件的格式化输入

python

Python中文件的格式化输入,python,nltk,Python,Nltk,我试图将一个文件读入python程序，并在其上应用标记器将文本拆分为一组句子。然而，在我的输出中，我得到了我希望在输出中避免的'/n'字符，因为它可能会阻碍我对句子的进一步处理。我使用read（）命令读取输入。还尝试了readline（）。我仍然在输出中获取换行符。有没有避免这种情况的建议 file_sent = open(path,'r') all_sents = file_sent.read() sent_all = print all_sents tokenized_sents = se

我试图将一个文件读入python程序，并在其上应用标记器将文本拆分为一组句子。然而，在我的输出中，我得到了我希望在输出中避免的'/n'字符，因为它可能会阻碍我对句子的进一步处理。我使用read（）命令读取输入。还尝试了readline（）。我仍然在输出中获取换行符。有没有避免这种情况的建议

file_sent = open(path,'r')
all_sents = file_sent.read()
sent_all = print all_sents
tokenized_sents = sent_tokenize(sent_all)

如果要完全删除换行符，请执行以下操作：

all_sents = file_sent.read().replace('\n', '')

如果要将其替换为空格：

all_sents = file_sent.read().replace('\n', ' ')

显然，如果需要，您可以用其他内容替换它们。

“\n”是换行符的文本符号。我知道这一点，但我不希望在输入中使用它。该代码不应运行。行

sent\u all=print all\u sents

导致“无效语法”错误。你在做什么来让这一切顺利？这是真的，谢谢！但是我想知道是否有其他的方法我们也可以这样做。你到底在想什么样的方法呢？您可以在处理过程中的其他某个点访问它。例如，如果您将其拆分为单词，则可以使用

.split（）

，它可以很好地处理任何类型的空白，包括换行符，并且它们将在此时消失。