使用python逐行解析预标记

使用python逐行解析预标记,python,html,parsing,beautifulsoup,pre,Python,Html,Parsing,Beautifulsoup,Pre,我有一个HTML文件,其中包含pre标记中的数据。我想逐行解析pre-tags中的数据,并根据每行中的时间戳执行排序。如何使用python实现这一点 <pre>**Date Time DataFeed** 10/01/1994 10:00:00 Go_to_sleep ....... .......</pre> **日期时间数据源** 1994年1月10日10:00:00睡觉 ....... ....... [1]中的:导入bs4 在[2]中:text='''**日期时

我有一个HTML文件,其中包含pre标记中的数据。我想逐行解析pre-tags中的数据,并根据每行中的时间戳执行排序。如何使用python实现这一点

<pre>**Date Time DataFeed**
10/01/1994 10:00:00 Go_to_sleep
.......
.......</pre>
**日期时间数据源**
1994年1月10日10:00:00睡觉
.......
.......
[1]中的
:导入bs4
在[2]中:text='''**日期时间数据源**
…1994年1月10日10:00:00睡觉
…1994年1月10日10:00:00睡觉
…1994年1月10日10:00:00睡觉
…1994年1月10日10:00:00睡觉
在[3]中:soup=bs4.beautifulsou(文本'lxml')
在[4]:soup.pre.get_text()中
Out[4]:“**日期时间数据源**\n10/01/1994 10:00:00进入睡眠\n10/01/1994 10:00:00进入睡眠\n10/01/1994 10:00:00进入睡眠\n10/01/1994 10:00:00进入睡眠”
在[6]中:soup.pre.get_text().splitlines()
出[6]:
['**日期时间数据源**',
“1994年1月10日10:00:00睡觉”,
“1994年1月10日10:00:00睡觉”,
“1994年1月10日10:00:00睡觉”,
“1994年1月10日10:00:00睡觉”]

在bs4中,带换行符的html代码被转换为
\n
,您可以使用
splitlines()
将其拆分为列表。

它可以工作,但问题是文件确实很大,处理和显示它需要很多时间。有没有更快的方法
In [1]: import bs4

In [2]: text = '''<pre>**Date Time DataFeed**
   ...: 10/01/1994 10:00:00 Go_to_sleep
   ...: 10/01/1994 10:00:00 Go_to_sleep
   ...: 10/01/1994 10:00:00 Go_to_sleep
   ...: 10/01/1994 10:00:00 Go_to_sleep</pre>'''

In [3]: soup = bs4.BeautifulSoup(text, 'lxml')

In [4]: soup.pre.get_text()
Out[4]: '**Date Time DataFeed**\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep'
In [6]: soup.pre.get_text().splitlines()
Out[6]: 
['**Date Time DataFeed**',
 '10/01/1994 10:00:00 Go_to_sleep',
 '10/01/1994 10:00:00 Go_to_sleep',
 '10/01/1994 10:00:00 Go_to_sleep',
 '10/01/1994 10:00:00 Go_to_sleep']