Python 如何下载和阅读带有通用换行符的URL?

Python 如何下载和阅读带有通用换行符的URL?,python,web,web-scraping,urllib,python-2.7,Python,Web,Web Scraping,Urllib,Python 2.7,我在Python2.7中使用了urllib.urlopen,但我需要在一个元素中处理下载的HTML文档及其包含的换行符 表示urlopen将不使用通用换行符。如何执行此操作?在处理前置标记的内容时,请使用以规范化行尾: >>> from urllib import urlopen >>> urlopen("http://****.com/win_new_lines.htm").read() 'line 1\nline 2\n\n\nline 3' >&g

我在Python2.7中使用了urllib.urlopen,但我需要在一个元素中处理下载的HTML文档及其包含的换行符


表示urlopen将不使用通用换行符。如何执行此操作?

在处理前置标记的内容时,请使用以规范化行尾:

>>> from urllib import urlopen
>>> urlopen("http://****.com/win_new_lines.htm").read()
'line 1\nline 2\n\n\nline 3'
>>> urlopen("http://****.com/unix_new_lines.htm").read()   
'line 1\nline 2\n\n\nline 3'

处理预标记的内容时,请使用以规范化行尾:

>>> from urllib import urlopen
>>> urlopen("http://****.com/win_new_lines.htm").read()
'line 1\nline 2\n\n\nline 3'
>>> urlopen("http://****.com/unix_new_lines.htm").read()   
'line 1\nline 2\n\n\nline 3'

除非您的磁盘上已存在HTML文件,否则urlopen将正确处理您要解析的HTML文件中的所有换行符格式\n、\r\n和\r,也就是说,它将根据以下命令将它们转换为\n:

如果URL没有方案标识符,或者它的方案标识符为file:,则会打开一个不带通用换行符的本地文件

例如


除非您的磁盘上已存在HTML文件,否则urlopen将正确处理您要解析的HTML文件中的所有换行符格式\n、\r\n和\r,也就是说,它将根据以下命令将它们转换为\n:

如果URL没有方案标识符,或者它的方案标识符为file:,则会打开一个不带通用换行符的本地文件

例如


你说得对。在进一步诊断我的bug之后,我意识到这其实不是问题所在。你说得对。在进一步诊断我的bug之后,我意识到这实际上不是问题所在。