如何将HTML转换为可读文本-Python_Python_Html_Text

如何将HTML转换为可读文本-Python

python html text

如何将HTML转换为可读文本-Python,python,html,text,Python,Html,Text,如何将此文本转换为可读文本（删除所有。我已经尝试过使用html2text，但它只删除了，我需要删除所有内容。” 我想穿上它不喜欢 Du kan g\u00f8re det s\u00e5和她：4297 1\u2062+1425\u0332 5722\u0332\u0332\u0332你可以使用BeautifulSoup来完成这项工作 from bs4 import BeautifulSoup html = "<p>Du kan g\u00f8re det s\u00e

如何将此文本转换为可读文本（删除所有。我已经尝试过使用html2text，但它只删除了，我需要删除所有内容。”

我想穿上它不喜欢

Du kan g\u00f8re det s\u00e5和她：4297 1\u2062+1425\u0332 5722\u0332\u0332\u0332

你可以使用BeautifulSoup来完成这项工作

from bs4 import BeautifulSoup

html = "<p>Du kan g\u00f8re det s\u00e5dan her:<\/p><p><math><mrow><munder><mrow><munder><mrow><mtable><mtr><mtd><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mover><mrow><mtext> <\/mtext><mn>4297<\/mn><\/mrow><mrow><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1<\/mn><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1<\/mn><mo>\u2062<\/mo><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><\/mrow><\/mover><\/mtd><\/mtr><mtr><mtd><munder><mrow><mtable><mtr><mtd><mo>+<\/mo><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1425<\/mn><\/mtd><\/mtr><\/mtable><\/mrow><mo>\u0332<\/mo><\/munder><\/mtd><\/mtr><mtr><mtd><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>5722<\/mn><\/mtd><\/mtr><\/mtable><\/mrow><mo>\u0332<\/mo><\/munder><\/mrow><mo>\u0332<\/mo><\/munder><\/mrow><\/math><\/p>"
soup = BeautifulSoup(html)

# remove the script and style elements
for script in soup(["script", "style"]):
    script.extract()
    
# extract the text
text = soup.get_text()

print(text)

从bs4导入美化组
html=“Du kan g\u00f8re det s\u00e5和她：4297 11\u2062+1425\u0332 5722\u0332\u0332”
soup=BeautifulSoup（html）
#删除脚本和样式元素
对于汤中的脚本（[“脚本”，“样式]）：
script.extract（）
#提取文本
text=soup.get_text（）
打印（文本）

我不知道这里是否有您想要的东西

from simplified_scrapy import SimplifiedDoc,utils
html = '''
<p>Du kan g\u00f8re det s\u00e5dan her:<\/p><p><math><mrow><munder><mrow><munder><mrow><mtable><mtr><mtd><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mover><mrow><mtext> <\/mtext><mn>4297<\/mn><\/mrow><mrow><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1<\/mn><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1<\/mn><mo>\u2062<\/mo><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><\/mrow><\/mover><\/mtd><\/mtr><mtr><mtd><munder><mrow><mtable><mtr><mtd><mo>+<\/mo><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1425<\/mn><\/mtd><\/mtr><\/mtable><\/mrow><mo>\u0332<\/mo><\/munder><\/mtd><\/mtr><mtr><mtd><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>5722<\/mn><\/mtd><\/mtr><\/mtable><\/mrow><mo>\u0332<\/mo><\/munder><\/mrow><mo>\u0332<\/mo><\/munder><\/mrow><\/math><\/p>
'''
doc = SimplifiedDoc(html)
print (doc.text)
print (doc.removeHtml(html))
print (doc.replaceReg(html,'<[^>]*>','').strip())
print (doc.replaceReg(doc.replaceReg(html,'<[^>]*>',''),'[ ]+',' ').strip()

从simplified\u scrapy导入SimplifiedDoc，utils
html=“”
杜肯g\u00f8详细说明s\u00e5和她：4297 1\u2062+1425\u0332 5722\u0332\u0332
'''
doc=SimplifiedDoc（html）
打印（文档文本）
打印（文档移除html（html））
打印（doc.replaceReg（html，']*>'，''.strip（））
打印（doc.replaceReg（doc.replaceReg（html，']*>'，''，'[]+'，''）.strip（）

这有帮助吗？它最终给了我

Du kan f.eks.g\u00f8re s\u00e5，她：

它完全跳过了像这样的重要数字（由于某种原因，粗体不起作用，所以在**和**之间，应该是粗体）：

**4297****1**/code>那是我使用soup.p.get_text（）。替换（“\n”，“”）
因为我不想保留空格我当前的代码：soup=BeautifulSoup（问题[0]），用于soup中的脚本（[“脚本”，“样式]）：script.decompose（）ques=soup.p.get_text（）.replace（“\n”，“样式”）
问题[0]就等于你上面的字符串嗯，我不太明白。你想要的输出是什么？它给了我Du kan gøre det sådan her:4297 11⁢+1425̲5722̲
，这似乎保留了空格，好吗？