Python：从一些讨厌的html中提取数据_Python_Html_Parsing_Text Extraction

Python：从一些讨厌的html中提取数据

python html parsing

Python：从一些讨厌的html中提取数据,python,html,parsing,text-extraction,Python,Html,Parsing,Text Extraction,我的问题与but在一点nast html代码上的使用有关。我有一个包含多个html/css条目的文件/网页，在其中的某些行中，我得到了html代码中经常重复的部分，我需要解析这些部分来提取某些数据。例如： 1）要提取的编号66 从该评论中提取的编号123456 <h3 class="s KB8NC">66.&hsbc; <!-- <A name="simp123456" href="text.php?p=1&i_simp_z_

我的问题与but在一点nast html代码上的使用有关。
我有一个包含多个html/css条目的文件/网页，在其中的某些行中，我得到了html代码中经常重复的部分，我需要解析这些部分来提取某些数据。

例如：

1）
要提取的编号66
从该评论中提取的编号123456

<h3 class="s KB8NC">66.&hsbc; 
<!--
        <A name="simp123456" href="text.php?p=1&i_simp_z_boc_nb_sec=123456&i_simp_s_vitrazka=1">
-->
ristill advocka, sygint: SURVE/123-021/11-2/XX</h3>

这不是直接解决问题的方法，而是一个使解析HTML更容易的库

然后，您可以执行以下操作：

import re
from bs4 import BeautifulSoup

html = BeautifulSoup(your_html_content)
for link in html.find_all('p.monozzio a'):  # use css selectors
    href = link.get('href')
    reg = re.compile('i_simp_z_boc_nb_sec=([0-9]+)')
    nbrs = reg.findall(href)  # regex to extract values

请注意，我没有测试代码，这只是一个一般的想法。

这不是解决问题的直接方法，而是一个使解析HTML更容易的库

然后，您可以执行以下操作：

import re
from bs4 import BeautifulSoup

html = BeautifulSoup(your_html_content)
for link in html.find_all('p.monozzio a'):  # use css selectors
    href = link.get('href')
    reg = re.compile('i_simp_z_boc_nb_sec=([0-9]+)')
    nbrs = reg.findall(href)  # regex to extract values

请注意，我没有测试代码，这只是一个一般的想法。

是否要从html中提取所有整数？你可以参考这个，我想从我的例子中提取那些整数-对于整个html，我的意思是这个标签的结构是重复的，数字是变化的，但它们仍然在标签中的同一个位置。你想从html中提取所有整数吗？你们可以参考这一点，我想从我的例子中只提取那个些整数——对于整个html，我的意思是这个标记的结构是重复的，数字是变化的，但它们仍然在标记的同一个plce中。

import re
from bs4 import BeautifulSoup

html = BeautifulSoup(your_html_content)
for link in html.find_all('p.monozzio a'):  # use css selectors
    href = link.get('href')
    reg = re.compile('i_simp_z_boc_nb_sec=([0-9]+)')
    nbrs = reg.findall(href)  # regex to extract values