Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/87.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何将HTML转换为可读文本-Python_Python_Html_Text - Fatal编程技术网

如何将HTML转换为可读文本-Python

如何将HTML转换为可读文本-Python,python,html,text,Python,Html,Text,如何将此文本转换为可读文本(删除所有。 我已经尝试过使用html2text,但它只删除了,我需要删除所有内容。” 我想穿上它 不喜欢 Du kan g\u00f8re det s\u00e5和她:4297 1\u2062+1425\u0332 5722\u0332\u0332\u0332你可以使用BeautifulSoup来完成这项工作 from bs4 import BeautifulSoup html = "<p>Du kan g\u00f8re det s\u00e

如何将此文本转换为可读文本(删除所有。 我已经尝试过使用html2text,但它只删除了,我需要删除所有内容。”

我想穿上它 不喜欢
Du kan g\u00f8re det s\u00e5和她:4297 1\u2062+1425\u0332 5722\u0332\u0332\u0332
你可以使用BeautifulSoup来完成这项工作

from bs4 import BeautifulSoup

html = "<p>Du kan g\u00f8re det s\u00e5dan her:<\/p><p><math><mrow><munder><mrow><munder><mrow><mtable><mtr><mtd><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mover><mrow><mtext> <\/mtext><mn>4297<\/mn><\/mrow><mrow><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1<\/mn><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1<\/mn><mo>\u2062<\/mo><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><\/mrow><\/mover><\/mtd><\/mtr><mtr><mtd><munder><mrow><mtable><mtr><mtd><mo>+<\/mo><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1425<\/mn><\/mtd><\/mtr><\/mtable><\/mrow><mo>\u0332<\/mo><\/munder><\/mtd><\/mtr><mtr><mtd><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>5722<\/mn><\/mtd><\/mtr><\/mtable><\/mrow><mo>\u0332<\/mo><\/munder><\/mrow><mo>\u0332<\/mo><\/munder><\/mrow><\/math><\/p>"
soup = BeautifulSoup(html)

# remove the script and style elements
for script in soup(["script", "style"]):
    script.extract()
    
# extract the text
text = soup.get_text()

print(text)
从bs4导入美化组
html=“Du kan g\u00f8re det s\u00e5和她:4297 11\u2062+1425\u0332 5722\u0332\u0332”
soup=BeautifulSoup(html)
#删除脚本和样式元素
对于汤中的脚本([“脚本”,“样式]):
script.extract()
#提取文本
text=soup.get_text()
打印(文本)

我不知道这里是否有您想要的东西

from simplified_scrapy import SimplifiedDoc,utils
html = '''
<p>Du kan g\u00f8re det s\u00e5dan her:<\/p><p><math><mrow><munder><mrow><munder><mrow><mtable><mtr><mtd><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mover><mrow><mtext> <\/mtext><mn>4297<\/mn><\/mrow><mrow><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1<\/mn><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1<\/mn><mo>\u2062<\/mo><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><\/mrow><\/mover><\/mtd><\/mtr><mtr><mtd><munder><mrow><mtable><mtr><mtd><mo>+<\/mo><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>1425<\/mn><\/mtd><\/mtr><\/mtable><\/mrow><mo>\u0332<\/mo><\/munder><\/mtd><\/mtr><mtr><mtd><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mtext> <\/mtext><mn>5722<\/mn><\/mtd><\/mtr><\/mtable><\/mrow><mo>\u0332<\/mo><\/munder><\/mrow><mo>\u0332<\/mo><\/munder><\/mrow><\/math><\/p>
'''
doc = SimplifiedDoc(html)
print (doc.text)
print (doc.removeHtml(html))
print (doc.replaceReg(html,'<[^>]*>','').strip())
print (doc.replaceReg(doc.replaceReg(html,'<[^>]*>',''),'[ ]+',' ').strip()
从simplified\u scrapy导入SimplifiedDoc,utils
html=“”
杜肯g\u00f8详细说明s\u00e5和她:4297 1\u2062+1425\u0332 5722\u0332\u0332
'''
doc=SimplifiedDoc(html)
打印(文档文本)
打印(文档移除html(html))
打印(doc.replaceReg(html,']*>',''.strip())
打印(doc.replaceReg(doc.replaceReg(html,']*>','','[]+','').strip()

这有帮助吗?它最终给了我
Du kan f.eks.g\u00f8re s\u00e5,她:
它完全跳过了像这样的重要数字(由于某种原因,粗体不起作用,所以在**和**之间,应该是粗体):
**4297****1**/code>那是我使用
soup.p.get_text()。替换(“\n”,“”)
因为我不想保留空格我当前的代码:
soup=BeautifulSoup(问题[0]),用于soup中的脚本([“脚本”,“样式]):script.decompose()ques=soup.p.get_text().replace(“\n”,“样式”)
问题[0]就等于你上面的字符串嗯,我不太明白。你想要的输出是什么?它给了我
Du kan gøre det sådan her:4297 11⁢+1425̲5722̲
,这似乎保留了空格,好吗?