Python:从一些讨厌的html中提取数据

Python:从一些讨厌的html中提取数据,python,html,parsing,text-extraction,Python,Html,Parsing,Text Extraction,我的问题与but在一点nast html代码上的使用有关。 我有一个包含多个html/css条目的文件/网页,在其中的某些行中,我得到了html代码中经常重复的部分,我需要解析这些部分来提取某些数据。 例如: 1) 要提取的编号66 从该评论中提取的编号123456 <h3 class="s KB8NC">66.&hsbc; <!-- <A name="simp123456" href="text.php?p=1&i_simp_z_

我的问题与but在一点nast html代码上的使用有关。
我有一个包含多个html/css条目的文件/网页,在其中的某些行中,我得到了html代码中经常重复的部分,我需要解析这些部分来提取某些数据。

例如:

1)
要提取的编号66
从该评论中提取的编号123456

<h3 class="s KB8NC">66.&hsbc; 
<!--
        <A name="simp123456" href="text.php?p=1&i_simp_z_boc_nb_sec=123456&i_simp_s_vitrazka=1">
-->
ristill advocka, sygint: SURVE/123-021/11-2/XX</h3>

这不是直接解决问题的方法,而是一个使解析HTML更容易的库

然后,您可以执行以下操作:

import re
from bs4 import BeautifulSoup

html = BeautifulSoup(your_html_content)
for link in html.find_all('p.monozzio a'):  # use css selectors
    href = link.get('href')
    reg = re.compile('i_simp_z_boc_nb_sec=([0-9]+)')
    nbrs = reg.findall(href)  # regex to extract values

请注意,我没有测试代码,这只是一个一般的想法。

这不是解决问题的直接方法,而是一个使解析HTML更容易的库

然后,您可以执行以下操作:

import re
from bs4 import BeautifulSoup

html = BeautifulSoup(your_html_content)
for link in html.find_all('p.monozzio a'):  # use css selectors
    href = link.get('href')
    reg = re.compile('i_simp_z_boc_nb_sec=([0-9]+)')
    nbrs = reg.findall(href)  # regex to extract values

请注意,我没有测试代码,这只是一个一般的想法。

是否要从html中提取所有整数?你可以参考这个,我想从我的例子中提取那些整数-对于整个html,我的意思是这个标签的结构是重复的,数字是变化的,但它们仍然在标签中的同一个位置。你想从html中提取所有整数吗?你们可以参考这一点,我想从我的例子中只提取那个些整数——对于整个html,我的意思是这个标记的结构是重复的,数字是变化的,但它们仍然在标记的同一个plce中。
import re
from bs4 import BeautifulSoup

html = BeautifulSoup(your_html_content)
for link in html.find_all('p.monozzio a'):  # use css selectors
    href = link.get('href')
    reg = re.compile('i_simp_z_boc_nb_sec=([0-9]+)')
    nbrs = reg.findall(href)  # regex to extract values