使用python逐行解析预标记_Python_Html_Parsing_Beautifulsoup_Pre

使用python逐行解析预标记

python html parsing

使用python逐行解析预标记,python,html,parsing,beautifulsoup,pre,Python,Html,Parsing,Beautifulsoup,Pre,我有一个HTML文件，其中包含pre标记中的数据。我想逐行解析pre-tags中的数据，并根据每行中的时间戳执行排序。如何使用python实现这一点 <pre>**Date Time DataFeed** 10/01/1994 10:00:00 Go_to_sleep ....... .......</pre> **日期时间数据源** 1994年1月10日10:00:00睡觉 ....... ....... [1]中的：导入bs4 在[2]中：text='''**日期时

我有一个HTML文件，其中包含pre标记中的数据。我想逐行解析pre-tags中的数据，并根据每行中的时间戳执行排序。如何使用python实现这一点

<pre>**Date Time DataFeed**
10/01/1994 10:00:00 Go_to_sleep
.......
.......</pre>

**日期时间数据源**
1994年1月10日10:00:00睡觉
.......
.......
[1]中的：导入bs4
在[2]中：text='''**日期时间数据源**
…1994年1月10日10:00:00睡觉
…1994年1月10日10:00:00睡觉
…1994年1月10日10:00:00睡觉
…1994年1月10日10:00:00睡觉
在[3]中：soup=bs4.beautifulsou（文本'lxml'）
在[4]：soup.pre.get_text（）中
Out[4]：“**日期时间数据源**\n10/01/1994 10:00:00进入睡眠\n10/01/1994 10:00:00进入睡眠\n10/01/1994 10:00:00进入睡眠\n10/01/1994 10:00:00进入睡眠”
在[6]中：soup.pre.get_text（）.splitlines（）
出[6]：
['**日期时间数据源**'，
“1994年1月10日10:00:00睡觉”，
“1994年1月10日10:00:00睡觉”，
“1994年1月10日10:00:00睡觉”，
“1994年1月10日10:00:00睡觉”]

在bs4中，带换行符的html代码被转换为\n
，您可以使用splitlines（）
将其拆分为列表。它可以工作，但问题是文件确实很大，处理和显示它需要很多时间。有没有更快的方法
In [1]: import bs4

In [2]: text = '''<pre>**Date Time DataFeed**
   ...: 10/01/1994 10:00:00 Go_to_sleep
   ...: 10/01/1994 10:00:00 Go_to_sleep
   ...: 10/01/1994 10:00:00 Go_to_sleep
   ...: 10/01/1994 10:00:00 Go_to_sleep</pre>'''

In [3]: soup = bs4.BeautifulSoup(text, 'lxml')

In [4]: soup.pre.get_text()
Out[4]: '**Date Time DataFeed**\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep'
In [6]: soup.pre.get_text().splitlines()
Out[6]: 
['**Date Time DataFeed**',
 '10/01/1994 10:00:00 Go_to_sleep',
 '10/01/1994 10:00:00 Go_to_sleep',
 '10/01/1994 10:00:00 Go_to_sleep',
 '10/01/1994 10:00:00 Go_to_sleep']