当href以“开始”时检索url时出现问题;javascript:";在解析html时
我正在制作一个网络爬虫,我必须从锚点检索链接,但当href以“javascript:当href以“开始”时检索url时出现问题;javascript:";在解析html时,javascript,python,html,Javascript,Python,Html,我正在制作一个网络爬虫,我必须从锚点检索链接,但当href以“javascript: 当href以“javascript:”开头时,上述代码不起作用。如何复制javascript函数的行为?使用onclick=“TreeView_PopulateNode(ctl00_Main_TreeView1_Data,0,document.getElementById('ctl00_Main_TreeView1n0')、document.getElementById('ctl00_Main_TreeView
当href以“javascript:”开头时,上述代码不起作用。如何复制javascript函数的行为?使用onclick=“TreeView_PopulateNode(ctl00_Main_TreeView1_Data,0,document.getElementById('ctl00_Main_TreeView1n0')、document.getElementById('ctl00_Main_TreeView1t0')、null、'r'、'ufio di gabineto del president della Regione'、'100'、'f'、'f')进行尝试。”也许我的问题有点不清楚…我的意思是我在解析html,我在检索链接。我不是网络管理员,我正在制作一个网络爬虫,你可以通过两个步骤来完成:查找href值是否有“javascript:”(使用搜索或indexOf方法),如果有,则使用“hrefstring”。替换('javascript:','')@akio我认为“javascript:blah-blah”是一个函数调用,“blah-blah”是函数的参数,所以我认为删除“javascript:”而不使用参数是行不通的
<a href="javascript:TreeView_PopulateNode(ctl00_Main_TreeView1_Data,0,document.getElementById('ctl00_Main_TreeView1n0'),document.getElementById('ctl00_Main_TreeView1t0'),null,'r','Ufficio di Gabinetto del Presidente della Regione','100','f','','f')">bla bla bla</a>
urlPagina = "bla bla bla"
href = "bla bla bla"
link = urllib.parse.urljoin(urlPagina, href)