Python 从html中的列中提取多种类型的文本_Python_Html_Url_Csv_Extract

Python 从html中的列中提取多种类型的文本

python html url csv

Python 从html中的列中提取多种类型的文本,python,html,url,csv,extract,Python,Html,Url,Csv,Extract,我是Python新手，我正在尝试从html页面提取数据。表中有一列是文本和URL的混合体。我想从该列中提取所有信息，保持链接到csv文件（稍后将保存为Excel文件）的完整性。请告诉我。这是我的代码，只提取文本 trs = soup.find_all('tr') for tr in trs: tds = tr.find_all("td") try: RS_id = str(tds[5].get_text().encode('utf-8')) 该列的一些单元格有多

我是Python新手，我正在尝试从html页面提取数据。表中有一列是文本和URL的混合体。我想从该列中提取所有信息，保持链接到csv文件（稍后将保存为Excel文件）的完整性。请告诉我。这是我的代码，只提取文本

trs = soup.find_all('tr')
for tr in trs:
    tds = tr.find_all("td")
    try:
        RS_id = str(tds[5].get_text().encode('utf-8'))

该列的一些单元格有多个URL，我希望它们保持不变

该列中的数据是如何写入的？如果URL被其他文本分隔的方式有明确的模式，那么可以使用string.split（'character'）命令

假设您关心的数据列的所有条目都被一个“，”字符分开，那么您会说：

column_data=RS_id.split(',')

这将为您提供该列中列出的所有内容的列表，并在每次有逗号字符时将其拆分。然后，您只需对列表进行索引，即可获得所需的URL。如果没有索引列表的特定顺序，您可能需要执行以下操作：

URL_list=[]
for item in column_data:
    if 'http' in item: URL_list.append(item)

编辑：查看beautifulsoup如何解析表：

文本应有一个.href属性，即超链接指向的URL