Python:从一些讨厌的html中提取数据
我的问题与but在一点nast html代码上的使用有关。Python:从一些讨厌的html中提取数据,python,html,parsing,text-extraction,Python,Html,Parsing,Text Extraction,我的问题与but在一点nast html代码上的使用有关。 我有一个包含多个html/css条目的文件/网页,在其中的某些行中,我得到了html代码中经常重复的部分,我需要解析这些部分来提取某些数据。 例如: 1) 要提取的编号66 从该评论中提取的编号123456 <h3 class="s KB8NC">66.&hsbc; <!-- <A name="simp123456" href="text.php?p=1&i_simp_z_
我有一个包含多个html/css条目的文件/网页,在其中的某些行中,我得到了html代码中经常重复的部分,我需要解析这些部分来提取某些数据。
例如: 1)
要提取的编号66
从该评论中提取的编号123456
<h3 class="s KB8NC">66.&hsbc;
<!--
<A name="simp123456" href="text.php?p=1&i_simp_z_boc_nb_sec=123456&i_simp_s_vitrazka=1">
-->
ristill advocka, sygint: SURVE/123-021/11-2/XX</h3>
这不是直接解决问题的方法,而是一个使解析HTML更容易的库 然后,您可以执行以下操作:
import re
from bs4 import BeautifulSoup
html = BeautifulSoup(your_html_content)
for link in html.find_all('p.monozzio a'): # use css selectors
href = link.get('href')
reg = re.compile('i_simp_z_boc_nb_sec=([0-9]+)')
nbrs = reg.findall(href) # regex to extract values
请注意,我没有测试代码,这只是一个一般的想法。这不是解决问题的直接方法,而是一个使解析HTML更容易的库 然后,您可以执行以下操作:
import re
from bs4 import BeautifulSoup
html = BeautifulSoup(your_html_content)
for link in html.find_all('p.monozzio a'): # use css selectors
href = link.get('href')
reg = re.compile('i_simp_z_boc_nb_sec=([0-9]+)')
nbrs = reg.findall(href) # regex to extract values
请注意,我没有测试代码,这只是一个一般的想法。是否要从html中提取所有整数?你可以参考这个,我想从我的例子中提取那些整数-对于整个html,我的意思是这个标签的结构是重复的,数字是变化的,但它们仍然在标签中的同一个位置。你想从html中提取所有整数吗?你们可以参考这一点,我想从我的例子中只提取那个些整数——对于整个html,我的意思是这个标记的结构是重复的,数字是变化的,但它们仍然在标记的同一个plce中。
import re
from bs4 import BeautifulSoup
html = BeautifulSoup(your_html_content)
for link in html.find_all('p.monozzio a'): # use css selectors
href = link.get('href')
reg = re.compile('i_simp_z_boc_nb_sec=([0-9]+)')
nbrs = reg.findall(href) # regex to extract values