Python 从html中的列中提取多种类型的文本
我是Python新手,我正在尝试从html页面提取数据。表中有一列是文本和URL的混合体。我想从该列中提取所有信息,保持链接到csv文件(稍后将保存为Excel文件)的完整性。请告诉我。这是我的代码,只提取文本Python 从html中的列中提取多种类型的文本,python,html,url,csv,extract,Python,Html,Url,Csv,Extract,我是Python新手,我正在尝试从html页面提取数据。表中有一列是文本和URL的混合体。我想从该列中提取所有信息,保持链接到csv文件(稍后将保存为Excel文件)的完整性。请告诉我。这是我的代码,只提取文本 trs = soup.find_all('tr') for tr in trs: tds = tr.find_all("td") try: RS_id = str(tds[5].get_text().encode('utf-8')) 该列的一些单元格有多
trs = soup.find_all('tr')
for tr in trs:
tds = tr.find_all("td")
try:
RS_id = str(tds[5].get_text().encode('utf-8'))
该列的一些单元格有多个URL,我希望它们保持不变 该列中的数据是如何写入的?如果URL被其他文本分隔的方式有明确的模式,那么可以使用string.split('character')命令 假设您关心的数据列的所有条目都被一个“,”字符分开,那么您会说:
column_data=RS_id.split(',')
这将为您提供该列中列出的所有内容的列表,并在每次有逗号字符时将其拆分。然后,您只需对列表进行索引,即可获得所需的URL。如果没有索引列表的特定顺序,您可能需要执行以下操作:
URL_list=[]
for item in column_data:
if 'http' in item: URL_list.append(item)
编辑:
查看beautifulsoup如何解析表:
文本应有一个.href属性,即超链接指向的URL