Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/295.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从html中的列中提取多种类型的文本_Python_Html_Url_Csv_Extract - Fatal编程技术网

Python 从html中的列中提取多种类型的文本

Python 从html中的列中提取多种类型的文本,python,html,url,csv,extract,Python,Html,Url,Csv,Extract,我是Python新手,我正在尝试从html页面提取数据。表中有一列是文本和URL的混合体。我想从该列中提取所有信息,保持链接到csv文件(稍后将保存为Excel文件)的完整性。请告诉我。这是我的代码,只提取文本 trs = soup.find_all('tr') for tr in trs: tds = tr.find_all("td") try: RS_id = str(tds[5].get_text().encode('utf-8')) 该列的一些单元格有多

我是Python新手,我正在尝试从html页面提取数据。表中有一列是文本和URL的混合体。我想从该列中提取所有信息,保持链接到csv文件(稍后将保存为Excel文件)的完整性。请告诉我。这是我的代码,只提取文本

trs = soup.find_all('tr')
for tr in trs:
    tds = tr.find_all("td")
    try:
        RS_id = str(tds[5].get_text().encode('utf-8'))

该列的一些单元格有多个URL,我希望它们保持不变

该列中的数据是如何写入的?如果URL被其他文本分隔的方式有明确的模式,那么可以使用string.split('character')命令

假设您关心的数据列的所有条目都被一个“,”字符分开,那么您会说:

column_data=RS_id.split(',')
这将为您提供该列中列出的所有内容的列表,并在每次有逗号字符时将其拆分。然后,您只需对列表进行索引,即可获得所需的URL。如果没有索引列表的特定顺序,您可能需要执行以下操作:

URL_list=[]
for item in column_data:
    if 'http' in item: URL_list.append(item)
编辑: 查看beautifulsoup如何解析表:

文本应有一个.href属性,即超链接指向的URL