Python 正在分析链接的表_Python_Html_Beautifulsoup

Python 正在分析链接的表

python html

Python 正在分析链接的表,python,html,beautifulsoup,Python,Html,Beautifulsoup,我已经能够在Python2.7中使用BeautifulSoup隔离html表中的一行。这是一次学习经历，但很高兴能走到这一步。不幸的是，我在下一点上有点卡住了我需要获得“选择文档汇款报告I格式XLS”输入后的链接。因为这会改变外观的顺序，所以它需要是动态的。我不知道如何找到输入，然后抓住它后面的链接我一直在尝试一些findAll和nextSibling方法，但我对python和beautifuldshop的缺乏经验让我望而却步。BeautifulSoup文档很棒，但有点让我不知所措报告

我已经能够在Python2.7中使用BeautifulSoup隔离html表中的一行。这是一次学习经历，但很高兴能走到这一步。不幸的是，我在下一点上有点卡住了

我需要获得“选择文档汇款报告I格式XLS”输入后的链接。因为这会改变外观的顺序，所以它需要是动态的。我不知道如何找到输入，然后抓住它后面的链接

我一直在尝试一些findAll和nextSibling方法，但我对python和beautifuldshop的缺乏经验让我望而却步。BeautifulSoup文档很棒，但有点让我不知所措


报告下载
04/27/2015
05/26/2015
2015年5月26日美国东部时间上午10:00

通过检查

aria label

属性找到

输入

，并获取：

该HTML中似乎没有任何“选择文档汇款报告I format XLS”字符串，因此我不知道在该字符串之后您将如何找到该链接。您希望从您提供的HTML中得到什么？Alecxe，这非常有效。非常感谢。现在我想做一个修改。。。我想在“aria label”值中搜索两个值。本质上，有时我需要找到“报告”以外的内容，有时它的格式与“XLS”不同。所以我需要代码（regex-presumbly）来搜索一个给定的名称（代替报表）和一个给定的类型（代替XLS）。这是我尝试过的，但不起作用：label=row.find（“input”，{“aria-label”：re.compile（“\b”+报表名称+”*\b“+报表类型+”）@peglepete good，你能不能把它详细地解释成一个单独的问题，这样更多的人会有机会帮助你？谢谢。我在这里提出了一个新问题：

<tr class="odd">
 <td header="c1">
  Report Download
 </td>
 <td header="c2">
  <input aria-label="Select Report format PDF" id="documentChkBx0" name="documentChkBx" type="checkbox" value="5446"/>
  <a href="/a/document.html?key=5446">
   <img alt="Portable Document Format" src="/img/icons/icon_PDF.gif">
   </img>
  </a>
  <input aria-label="Select Report format XLS" id="documentChkBx1" name="documentChkBx" type="checkbox" value="5447"/>
  <a href="/a/document.html?key=5447">
   <img alt="Excel Spreadsheet Format" src="/img/icons/icon_XLS.gif">
   </img>
  </a>
 </td>
 <td header="c4">
  04/27/2015
 </td>
 <td header="c5">
  05/26/2015
 </td>
 <td header="c6">
  05/26/2015 10:00AM EDT
 </td>
</tr>

label = soup.find("input", {"aria-label": "Select Report format XLS"})
link = label.find_next_sibling("a", href=True)["href"]