Python BeautifulSoup 4在我身上插入结束标记
我从中提取html代码,BS4(4.3.2)在“eps估算”之后插入结束标记,包括结束正文标记。这导致它无法解析表中的相关信息 原文摘录:Python BeautifulSoup 4在我身上插入结束标记,python,html,python-2.7,beautifulsoup,Python,Html,Python 2.7,Beautifulsoup,我从中提取html代码,BS4(4.3.2)在“eps估算”之后插入结束标记,包括结束正文标记。这导致它无法解析表中的相关信息 原文摘录: <b>Earnings Announcements for Wednesday, January 15</b></td></tr><tr bgcolor=dcdcdc><td><font face=arial size=-1><b>Company</b>
<b>Earnings
Announcements for
Wednesday, January 15</b></td></tr><tr
bgcolor=dcdcdc><td><font
face=arial
size=-1><b>Company</b></font></td><td><font
face=arial
size=-1><b>Symbol</b></font></td><td
align=center><font
face=arial
size=-1><b>EPS<br>Estimate*</font></b></td><td
align=center><font
face=arial
size=-1><b>Time</b></font></td><td
align=center><font
face=arial
size=-1><b>Add
to
My<br>Calendar</b></font></td><td
align=center><font`...
收入
通告
1月15日星期三公司SYMBOLEPS
估算*时间添加
到
我的日历是的。bs4修复损坏的标签。。。为什么这是个问题?你是说它以前工作过吗?如果是,怎么做?如果没有,为什么不改变解析它的方式呢?bs4
可以使用三种不同的底层解析器。看见它们都以不同的方式处理损坏的HTML。尝试所有这些。此外,如果雅虎真的在一个要删除的URL上提供这些代码,请向他们提交一个bug。也就是说,如果条款和条件明确禁止删除这个网站(这是很常见的),他们可能故意制作HTML,使其在所有主要浏览器中都能工作,但解析起来非常困难。
<td align="center">
<font face="arial" size="-1">
<b>
EPS
<br>
Estimate*
</br>
</b>
</font>
</td>
</tr>
</table>
</td>
</tr>
</table>
</p>
</p>
</p>
</br>
</br>
</link>
</body>
</html>
<td align="center"><font face="arial" size="-1">
<b>
Time
</b>
</font>
</td>