Python逐行读取或存储html源代码

Python逐行读取或存储html源代码,python,html,python-3.x,Python,Html,Python 3.x,我刚开始学习Python3。(我正在读python的书,我有问题…) 我有一些问题需要阅读并从html源代码中查找关键字 我写了打开url的代码。 比如说, page =urllib.request.urlopen(some url) text = page.read().decode("utf8") 因此,我假设文本包含所有html代码,并且文本是对象 问题1。 我想使用某种数组或arraylist来存储html源代码。 然而,我并不确定如何从“text”对象获取代码行并将其存储到某种数组中

我刚开始学习Python3。(我正在读python的书,我有问题…)

我有一些问题需要阅读并从html源代码中查找关键字

我写了打开url的代码。 比如说,

page =urllib.request.urlopen(some url)
text = page.read().decode("utf8")
因此,我假设文本包含所有html代码,并且文本是对象

问题1。 我想使用某种数组或arraylist来存储html源代码。 然而,我并不确定如何从“text”对象获取代码行并将其存储到某种数组中

问题2。 python是否有“contain”函数从数组中查找特殊关键字,如“stack overflow”


谢谢。

如果你想解析整个HTML文档结构,不要试图自己编写程序——按照Allendar所说的做,并使用一个库

如果您只想搜索和查找文本中的特定内容,请使用正则表达式(“re”模块)

用传统意义上的行(CR/LF)来谈论HTML的“行”是没有意义的。整个页面可以在一行中。是标记构造HTML,而不是行。

使用HTML解析器;您的整个HTML源代码将变成一个可交互的对象。@Allendar——只是不要使用标准的库解析器——它很蹩脚:)也许吧?那么这个呢?:)