当我看到特殊的eol字符时，如何使用Python识别它？_Python_File Io_Unicode_Newline

当我看到特殊的eol字符时，如何使用Python识别它？

python file-io unicode

当我看到特殊的eol字符时，如何使用Python识别它？,python,file-io,unicode,newline,Python,File Io,Unicode,Newline,我正在使用Python抓取一组最初的pdf文件。让他们发短信后，我很难把行尾写出来。我想不出分线器是什么。问题是，我还是不知道它不是'\n'，或者，我不认为是'\r\n'。然而，我成功地分离出了其中一个特殊的角色。我确实在内存中有它，通过调用my_str.replace（eol，，），我可以从我的一个文件中删除所有这些字符所以我的问题是开放式的。谈到unicode之类的东西，我有点不知所措。我怎样才能在文件中识别这个字符而不诉诸于一些荒谬的手段，比如序列化它然后读入它？有没有一种方法可以将其

我正在使用Python抓取一组最初的pdf文件。让他们发短信后，我很难把行尾写出来。我想不出分线器是什么。问题是，我还是不知道

它不是

'\n'

，或者，我不认为是

'\r\n'

。然而，我成功地分离出了其中一个特殊的角色。我确实在内存中有它，通过调用

my_str.replace（eol，，）

，我可以从我的一个文件中删除所有这些字符

所以我的问题是开放式的。谈到unicode之类的东西，我有点不知所措。我怎样才能在文件中识别这个字符而不诉诸于一些荒谬的手段，比如序列化它然后读入它？有没有一种方法可以将其称为代码？我无法让Python产生它实际的样子。如果我打印它，或者调用unicode（special_eol）的话，我所看到的只是它作为换行符的函数用法中的字符

请帮忙！谢谢，如果我遗漏了一些明显的内容，请道歉。

要确定具体的字符，可以使用

str.encode（'unicode_escape'）

或（在Python 2中）获取字符的ASCII可打印表示：

>>> print u'☃'.encode('unicode_escape')
\u2603
>>> print repr(u'☃')
u'\u2603'

print repr（eol）

和/或

print eol.encode（'unicode_escape'）

和/或

print ord（eol）

，然后显示输出。所有unicode码点都可以用unicode转义序列表示，但没有更多细节，我们无法告诉您什么转义码是正确的。哇，您刚刚知道我需要键入什么。嗯，我有点尴尬，因为这是一个“\n”。我不明白，因为我尝试了

str.rstrip（'\n'）

.rstrip（'\n'）

只从字符串末尾删除换行符；也许它也存在于弦的其他地方？再看一看。好吧，这解决了我的困惑。因为我确实想删除所有这些文件，

.replace（'\n'，''）

就足够了。谢谢！后来我又用了一个不同的奇怪的字符，这个字符有一个很好的'\x0c'utf-8表示形式。