Python 删除HTML文件中的换行符_Python

Python 删除HTML文件中的换行符

python

Python 删除HTML文件中的换行符,python,Python,我有一个HTML文件，我需要删除body标记之间的所有换行符 <HTML> <HEAD> <TITLE> </TITLE> </HEAD> <BODY> <P></P> <P></P> </BODY> </HTML> 得到它 <HTML> <HEAD> <TITLE&

我有一个HTML文件，我需要删除body标记之间的所有换行符

<HTML>
  <HEAD>
    <TITLE>
    </TITLE>
  </HEAD>
<BODY>
  <P></P>
  <P></P>
</BODY>
</HTML>

得到它

<HTML>
  <HEAD>
    <TITLE>
    </TITLE>
  </HEAD>
<BODY><P></P><P></P></BODY>
</HTML>

尝试将整个html转换成字符串并执行此操作

bodystring = htmlstring[htmlstring.index('<BODY>'):htmlstring.index('</BODY>')+7]
htmlstring = htmlstring.replace(bodystring, bodystring.replace('\n',''))

bodystring=htmlstring[htmlstring.index（“”）：htmlstring.index（“”）+7]
htmlstring=htmlstring.replace（bodystring，bodystring.replace（'\n'，''）

这是一个自制的文件，不使用外部库：（假设您的文件是

foo.html

）

以open（'foo.html'）作为f的

：
html_file=f.readlines（）
正文索引=[]
对于html_文件中的行：
如果“主体”在直线上：
body_index.append（html_file.index（行））
开始，结束=主体索引
开始+=1
对于范围内的i（开始、结束）：
如果html_文件[i]中的“\n”：
html_文件[i]=html_文件[i]。替换（'\n'，''）

完成

文件内容=打开（'name.html'，'r'）。读取（）
开始索引，结束索引=文件内容.index（“”），文件内容.index（“”）
头、体内容、尾=文件内容[：开始索引]、文件内容[开始索引：结束索引]、文件内容[结束索引：]
新建\u html=头部+正文\u内容。替换（“\n”，”）+尾部
文件内容=打开（'name.html'，'w'）
文件\u content.write（新的\u html）

是否回答了您的问题？我的解决方案是否解决了您的问题？这不完全是我需要的，我需要使用python删除正文标记之间的\n可能

htmlstring.replace（bodystring，bodystring.replace（“，”）.replace（“\n'，”）

这应该可以工作，因为@s1chowey需要删除主体标记之间的所有空格以及新行字符

file_content = open('name.html', 'r').read()

start_index, end_index = file_content.index("<BODY>"), file_content.index("</BODY>")
head , body_content, tail = file_content[:start_index], file_content[start_index:end_index], file_content[end_index:]

new_html = head + body_content.replace("\n", "") + tail
file_content = open('name.html', 'w')
file_content.write(new_html)