Python 正在分析链接的表

Python 正在分析链接的表,python,html,beautifulsoup,Python,Html,Beautifulsoup,我已经能够在Python2.7中使用BeautifulSoup隔离html表中的一行。这是一次学习经历,但很高兴能走到这一步。不幸的是,我在下一点上有点卡住了 我需要获得“选择文档汇款报告I格式XLS”输入后的链接。因为这会改变外观的顺序,所以它需要是动态的。我不知道如何找到输入,然后抓住它后面的链接 我一直在尝试一些findAll和nextSibling方法,但我对python和beautifuldshop的缺乏经验让我望而却步。BeautifulSoup文档很棒,但有点让我不知所措 报告

我已经能够在Python2.7中使用BeautifulSoup隔离html表中的一行。这是一次学习经历,但很高兴能走到这一步。不幸的是,我在下一点上有点卡住了

我需要获得“选择文档汇款报告I格式XLS”输入后的链接。因为这会改变外观的顺序,所以它需要是动态的。我不知道如何找到输入,然后抓住它后面的链接

我一直在尝试一些findAll和nextSibling方法,但我对python和beautifuldshop的缺乏经验让我望而却步。BeautifulSoup文档很棒,但有点让我不知所措



报告下载
04/27/2015
05/26/2015
2015年5月26日美国东部时间上午10:00

通过检查
aria label
属性找到
输入
,并获取:


该HTML中似乎没有任何“选择文档汇款报告I format XLS”字符串,因此我不知道在该字符串之后您将如何找到该链接。您希望从您提供的HTML中得到什么?Alecxe,这非常有效。非常感谢。现在我想做一个修改。。。我想在“aria label”值中搜索两个值。本质上,有时我需要找到“报告”以外的内容,有时它的格式与“XLS”不同。所以我需要代码(regex-presumbly)来搜索一个给定的名称(代替报表)和一个给定的类型(代替XLS)。这是我尝试过的,但不起作用:label=row.find(“input”,{“aria-label”:re.compile(“\b”+报表名称+”*\b“+报表类型+”)@peglepete good,你能不能把它详细地解释成一个单独的问题,这样更多的人会有机会帮助你?谢谢。我在这里提出了一个新问题:
<tr class="odd">
 <td header="c1">
  Report Download
 </td>
 <td header="c2">
  <input aria-label="Select Report format PDF" id="documentChkBx0" name="documentChkBx" type="checkbox" value="5446"/>
  <a href="/a/document.html?key=5446">
   <img alt="Portable Document Format" src="/img/icons/icon_PDF.gif">
   </img>
  </a>
  <input aria-label="Select Report format XLS" id="documentChkBx1" name="documentChkBx" type="checkbox" value="5447"/>
  <a href="/a/document.html?key=5447">
   <img alt="Excel Spreadsheet Format" src="/img/icons/icon_XLS.gif">
   </img>
  </a>
 </td>
 <td header="c4">
  04/27/2015
 </td>
 <td header="c5">
  05/26/2015
 </td>
 <td header="c6">
  05/26/2015 10:00AM EDT
 </td>
</tr>
label = soup.find("input", {"aria-label": "Select Report format XLS"})
link = label.find_next_sibling("a", href=True)["href"]