Html 使用Selenium Webdriver Python从表中获取链接、月份和日期,但获取web元素没有属性len()
我试图从一个有3个表的网页中获取链接、日期和月份,我关心的是有有效链接的单元格的日期和月份 该网站是 所以我想把2019年1月7日之类的日期和链接保存在字典中,然后写入文件。但是我无法拿到这个月的工资 ''' 类名称中的行的Html 使用Selenium Webdriver Python从表中获取链接、月份和日期,但获取web元素没有属性len(),html,python-3.x,web,selenium-webdriver,web-scraping,Html,Python 3.x,Web,Selenium Webdriver,Web Scraping,我试图从一个有3个表的网页中获取链接、日期和月份,我关心的是有有效链接的单元格的日期和月份 该网站是 所以我想把2019年1月7日之类的日期和链接保存在字典中,然后写入文件。但是我无法拿到这个月的工资 ''' 类名称中的行的。通过标记名称(“tr”)查找元素: 行数=列(行)+1 对于范围内的i(2,num_行): column=行[i]。通过标记名称(“td”)查找元素 num_col=len(列)+1 对于范围内的c(2,数值列): 如果2这将为您提供日期和URL,您可以修改它以满足您的需要
。通过标记名称(“tr”)查找元素:
行数=列(行)+1
对于范围内的i(2,num_行):
column=行[i]。通过标记名称(“td”)查找元素
num_col=len(列)+1
对于范围内的c(2,数值列):
如果2这将为您提供日期和URL,您可以修改它以满足您的需要:
import requests
import lxml.html as lh
from urllib.request import urljoin
url = 'https://mat.maharashtra.gov.in/1111/Mumbai-(2019)#'
base_url = 'https://mat.maharashtra.gov.in'
resp = requests.get(url)
doc = lh.fromstring(resp.text)
tables = doc.xpath('//table')
for table in tables:
data = table.xpath('.//td/p/a')
for d in data:
link = d.attrib['href']
if not link.startswith('http'):
link = urljoin(base_url, link)
date = link.split('/')[-1][:10]
print(date, link)
输出:
07.01.2019 https://mat.maharashtra.gov.in/Site/Upload/Pdf/07.01.2019 (C).PDF
14.01.2019 https://mat.maharashtra.gov.in/Site/Upload/Pdf/14.01.2019 (C).PDF
21.01.2019 https://mat.maharashtra.gov.in/Site/Upload/Pdf/21.01.2019 (A).PDF
等等。谢谢你的回复。事实上,我想把一月印出来,而不是01@A_the_kunal什么意思?请编辑您的问题并添加您的预期输出。Jack Fleeting我已更新帖子,请检查
07.01.2019 https://mat.maharashtra.gov.in/Site/Upload/Pdf/07.01.2019 (C).PDF
14.01.2019 https://mat.maharashtra.gov.in/Site/Upload/Pdf/14.01.2019 (C).PDF
21.01.2019 https://mat.maharashtra.gov.in/Site/Upload/Pdf/21.01.2019 (A).PDF