Python 3.2使用urllib从HTML代码中删除换行符
我使用urllib将HTML转换为字符串,我想对字符串执行serach,但由于HTML格式的原因无法执行,因此有没有办法“取消格式化”字符串,不需要删除HTML代码,我只需要删除所有新行。 这是我的密码:Python 3.2使用urllib从HTML代码中删除换行符,python,html,string,format,urllib,Python,Html,String,Format,Urllib,我使用urllib将HTML转换为字符串,我想对字符串执行serach,但由于HTML格式的原因无法执行,因此有没有办法“取消格式化”字符串,不需要删除HTML代码,我只需要删除所有新行。 这是我的密码: import urllib.request url = "http://www.internetworldstats.com/emarketing.htm" request = urllib.request.Request(url) response = urllib.request.url
import urllib.request
url = "http://www.internetworldstats.com/emarketing.htm"
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
Whole=(response.read().decode('ISO-8859-1'))
Whole.strip('/n')
print(Whole[11631:12631])
YearPos=Whole.find('December, 1996')
print(YearPos)
脱衣刀不起作用了。。。。我得到的结果是这样的
December, 1995</b></font></p>
</td>
<td width="112" bgcolor="#FFFFFF">
<div align="right"><font size="-1" face="Arial" color=
"#000099">16 millions</font></div>
</td>
<td width="120" bgcolor="#FFFFFF">
<div align="right"><font size="-1" face="Arial" color=
"#000099">0.4 %</font></div>
</td>
<td width="120" bgcolor="#FFFFFF">
<p><font size="-1" face="Arial" color="#000099">IDC</font></p>
</td>
</tr>
<tr>
<td width="103" bgcolor="#FFFFFF">
<p><font size="-1" face="Arial" color="#000099">December,
1996</font></p>
</td>
<td width="112" bgcolor="#FFFFFF">
<div align="right"><font size="-1" face="Arial" color=
"#000099">36 millions</font></div>
</td>
<td width="120" bgcolor="#FFFFFF">
<div align="right"><font size="-1" face="Arial" color=
"#000099">0.9 %</font></div>
</td>
<td width="120" bgcolor="#FFFFFF">
<p><font size="-1" face="Arial" color="#000099">IDC</font></p>
</td>
</tr>
<tr>
<td width="103" bgcolor="#FFFFFF">
<p><font size="-1" face="Arial" color="#000099">December,
1997</font></p
-1
1995年12月
1600万
0.4%
数据中心
十二月,,
一九九六年
3600万
0.9%
数据中心
十二月,,
1997您写的换行符不正确,它是\n
,而不是/n
这里有一些问题
正如Vasili所提到的,换行符应该是\n
,而不是/n
不直接修改字符串。它返回已修改字符串的副本。所以它应该是Whole=Whole.strip('\n')
删除前导和尾随字符。在您的情况下,您想删除字符串中间的换行符。因此,您应该使用str.replace()
来代替,例如Whole=Whole.replace('\n','')
这非常有用,谢谢:)