Python 从HTML中提取brainfuck代码

Python 从HTML中提取brainfuck代码,python,beautifulsoup,brainfuck,Python,Beautifulsoup,Brainfuck,因此,我需要从一些HTML中提取一些brainfuck代码,而我到目前为止所做的一切都不起作用。HTML如下所示 <div class="style7" style="text-align: justify; overflow: auto;"> <br />++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++

因此,我需要从一些HTML中提取一些brainfuck代码,而我到目前为止所做的一切都不起作用。HTML如下所示

<div class="style7" style="text-align: justify; overflow: auto;">
        <br />++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++++>++++++++++>++++++++++>+++++++++++>+++++++++++>++++++++++>++++++++++++<<<<<<<<<<<<-]>-----.>++++.>---.>-.>+++.>+.>+++.>++.>+.>---.>-.>-----.<br /><br /><br />
</div>


++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++<
我正在使用Python和BeautifulSoup。我可以从整个文档中很好地获取div,但我似乎无法从
标记之间获得整个brainfuck

我该怎么做呢?谢谢

编辑:

在查看BeautifulSoup加载的内容之后,它似乎实际上删除了一大块代码。请求内容包含了所有内容,但soup没有

除了BeautifulSoup,还有更好的解析方法吗?也许是原始HTML上的正则表达式?

你是说这样

from bs4 import BeautifulSoup
html = '''
<div class="style7" style="text-align: justify; overflow: auto;">
        <br />++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++++>++++++++++>++++++++++>+++++++++++>+++++++++++>++++++++++>++++++++++++<<<<<<<<<<<<-]>-----.>++++.>---.>-.>+++.>+.>+++.>++.>+.>---.>-.>-----.<br /><br /><br />
</div>
'''
soup = BeautifulSoup(html)
div_tag = soup.find('div', attrs={'class':'style7'})
div_tag.text.strip()
u'++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++++>++++++++++>++++++++++>+++++++++++>+++++++++++>++++++++++>++++++++++++<<<<<<<<<<<<-]>-----.>++++.>---.>-.>+++.>+.>+++.>++.>+.>---.>-.>-----.'
从bs4导入美化组
html=“”

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++<
我注意到,当HTML被加载到汤中时,它删除了一大块brainfuck代码。这使得不可能获得所有内容。如果它不这样做,Shaktiman的解决方案就会起作用

相反,我在请求内容中使用字符串,并使用正则表达式获取brainfuck代码

m = re.search('<br />[[\]<>.,+-]+<br />', r.content)
m=re.search('
[[\],+-]+
',r.content)

这就抓住了它,然后你只需要去掉前面和后面的

就可以了。

@MarcB,BeautifulSoup是一个DOM解析器。所以你用正则表达式来解析html?这在很多方面都是个坏主意(正则表达式不能处理嵌套的标记等)DOM解析器无法解析它的原因很简单,那是无效的html。无法解析无效的html一点也不奇怪。BeautifulSoup(或另一个DOM解析器)是解析html的最佳方式,您只需给它html(该片段不是)@thaweatherman预期的输出是什么?
++++++++++[>+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-no@CedricMamo从HTML中提取应该可以很好地工作,这与解析HTML是不同的,解析HTML不会工作。