Python 从HTML中提取brainfuck代码_Python_Beautifulsoup_Brainfuck

Python 从HTML中提取brainfuck代码

python

Python 从HTML中提取brainfuck代码,python,beautifulsoup,brainfuck,Python,Beautifulsoup,Brainfuck,因此，我需要从一些HTML中提取一些brainfuck代码，而我到目前为止所做的一切都不起作用。HTML如下所示 <div class="style7" style="text-align: justify; overflow: auto;"> <br />++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++

因此，我需要从一些HTML中提取一些brainfuck代码，而我到目前为止所做的一切都不起作用。HTML如下所示

<div class="style7" style="text-align: justify; overflow: auto;">
        <br />++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++++>++++++++++>++++++++++>+++++++++++>+++++++++++>++++++++++>++++++++++++<<<<<<<<<<<<-]>-----.>++++.>---.>-.>+++.>+.>+++.>++.>+.>---.>-.>-----.<br /><br /><br />
</div>



++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++<


我正在使用Python和BeautifulSoup。我可以从整个文档中很好地获取div，但我似乎无法从
标记之间获得整个brainfuck
我该怎么做呢？谢谢
编辑：
在查看BeautifulSoup加载的内容之后，它似乎实际上删除了一大块代码。请求内容包含了所有内容，但soup没有
除了BeautifulSoup，还有更好的解析方法吗？也许是原始HTML上的正则表达式？
你是说这样
from bs4 import BeautifulSoup
html = '''
<div class="style7" style="text-align: justify; overflow: auto;">
        <br />++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++++>++++++++++>++++++++++>+++++++++++>+++++++++++>++++++++++>++++++++++++<<<<<<<<<<<<-]>-----.>++++.>---.>-.>+++.>+.>+++.>++.>+.>---.>-.>-----.<br /><br /><br />
</div>
'''
soup = BeautifulSoup(html)
div_tag = soup.find('div', attrs={'class':'style7'})
div_tag.text.strip()
u'++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++++>++++++++++>++++++++++>+++++++++++>+++++++++++>++++++++++>++++++++++++<<<<<<<<<<<<-]>-----.>++++.>---.>-.>+++.>+.>+++.>++.>+.>---.>-.>-----.'

从bs4导入美化组
html=“”

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++<
我注意到，当HTML被加载到汤中时，它删除了一大块brainfuck代码。这使得不可能获得所有内容。如果它不这样做，Shaktiman的解决方案就会起作用
相反，我在请求内容中使用字符串，并使用正则表达式获取brainfuck代码
m = re.search('<br />[[\]<>.,+-]+<br />', r.content)

m=re.search（'
[[\]，+-]+
'，r.content）

这就抓住了它，然后你只需要去掉前面和后面的
就可以了。
@MarcB，BeautifulSoup是一个DOM解析器。所以你用正则表达式来解析html？这在很多方面都是个坏主意（正则表达式不能处理嵌套的标记等）DOM解析器无法解析它的原因很简单，那是无效的html。无法解析无效的html一点也不奇怪。BeautifulSoup（或另一个DOM解析器）是解析html的最佳方式，您只需给它html（该片段不是）@thaweatherman预期的输出是什么？++++++++++[>+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-no@CedricMamo从HTML中提取应该可以很好地工作，这与解析HTML是不同的，解析HTML不会工作。