当我看到特殊的eol字符时,如何使用Python识别它?

当我看到特殊的eol字符时,如何使用Python识别它?,python,file-io,unicode,newline,Python,File Io,Unicode,Newline,我正在使用Python抓取一组最初的pdf文件。让他们发短信后,我很难把行尾写出来。我想不出分线器是什么。问题是,我还是不知道 它不是'\n',或者,我不认为是'\r\n'。然而,我成功地分离出了其中一个特殊的角色。我确实在内存中有它,通过调用my_str.replace(eol,,),我可以从我的一个文件中删除所有这些字符 所以我的问题是开放式的。谈到unicode之类的东西,我有点不知所措。我怎样才能在文件中识别这个字符而不诉诸于一些荒谬的手段,比如序列化它然后读入它?有没有一种方法可以将其

我正在使用Python抓取一组最初的pdf文件。让他们发短信后,我很难把行尾写出来。我想不出分线器是什么。问题是,我还是不知道

它不是
'\n'
,或者,我不认为是
'\r\n'
。然而,我成功地分离出了其中一个特殊的角色。我确实在内存中有它,通过调用
my_str.replace(eol,,)
,我可以从我的一个文件中删除所有这些字符

所以我的问题是开放式的。谈到unicode之类的东西,我有点不知所措。我怎样才能在文件中识别这个字符而不诉诸于一些荒谬的手段,比如序列化它然后读入它?有没有一种方法可以将其称为代码?我无法让Python产生它实际的样子。如果我打印它,或者调用unicode(special_eol)的话,我所看到的只是它作为换行符的函数用法中的字符


请帮忙!谢谢,如果我遗漏了一些明显的内容,请道歉。

要确定具体的字符,可以使用
str.encode('unicode_escape')
或(在Python 2中)获取字符的ASCII可打印表示:

>>> print u'☃'.encode('unicode_escape')
\u2603
>>> print repr(u'☃')
u'\u2603'

print repr(eol)
和/或
print eol.encode('unicode_escape')
和/或
print ord(eol)
,然后显示输出。所有unicode码点都可以用unicode转义序列表示,但没有更多细节,我们无法告诉您什么转义码是正确的。哇,您刚刚知道我需要键入什么。嗯,我有点尴尬,因为这是一个“\n”。我不明白,因为我尝试了
str.rstrip('\n')
.rstrip('\n')
只从字符串末尾删除换行符;也许它也存在于弦的其他地方?再看一看。好吧,这解决了我的困惑。因为我确实想删除所有这些文件,
.replace('\n','')
就足够了。谢谢!后来我又用了一个不同的奇怪的字符,这个字符有一个很好的'\x0c'utf-8表示形式。