Python逐行读取或存储html源代码_Python_Html_Python 3.x

Python逐行读取或存储html源代码

python html python-3.x

Python逐行读取或存储html源代码,python,html,python-3.x,Python,Html,Python 3.x,我刚开始学习Python3。（我正在读python的书，我有问题…）我有一些问题需要阅读并从html源代码中查找关键字我写了打开url的代码。比如说, page =urllib.request.urlopen(some url) text = page.read().decode("utf8") 因此，我假设文本包含所有html代码，并且文本是对象问题1。我想使用某种数组或arraylist来存储html源代码。然而，我并不确定如何从“text”对象获取代码行并将其存储到某种数组中

我刚开始学习Python3。（我正在读python的书，我有问题…）

我有一些问题需要阅读并从html源代码中查找关键字

我写了打开url的代码。比如说,

page =urllib.request.urlopen(some url)
text = page.read().decode("utf8")

因此，我假设文本包含所有html代码，并且文本是对象

问题1。我想使用某种数组或arraylist来存储html源代码。然而，我并不确定如何从“text”对象获取代码行并将其存储到某种数组中

问题2。 python是否有“contain”函数从数组中查找特殊关键字，如“stack overflow”

谢谢。

如果你想解析整个HTML文档结构，不要试图自己编写程序——按照Allendar所说的做，并使用一个库

如果您只想搜索和查找文本中的特定内容，请使用正则表达式（“re”模块）

用传统意义上的行（CR/LF）来谈论HTML的“行”是没有意义的。整个页面可以在一行中。是标记构造HTML，而不是行。

使用HTML解析器；您的整个HTML源代码将变成一个可交互的对象。@Allendar——只是不要使用标准的库解析器——它很蹩脚：）也许吧？那么这个呢？：）