Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/78.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python BeautifulSoup 4在我身上插入结束标记_Python_Html_Python 2.7_Beautifulsoup - Fatal编程技术网

Python BeautifulSoup 4在我身上插入结束标记

Python BeautifulSoup 4在我身上插入结束标记,python,html,python-2.7,beautifulsoup,Python,Html,Python 2.7,Beautifulsoup,我从中提取html代码,BS4(4.3.2)在“eps估算”之后插入结束标记,包括结束正文标记。这导致它无法解析表中的相关信息 原文摘录: <b>Earnings Announcements for Wednesday, January 15</b></td></tr><tr bgcolor=dcdcdc><td><font face=arial size=-1><b>Company</b>

我从中提取html代码,BS4(4.3.2)在“eps估算”之后插入结束标记,包括结束正文标记。这导致它无法解析表中的相关信息

原文摘录:

<b>Earnings
Announcements for
Wednesday, January 15</b></td></tr><tr
bgcolor=dcdcdc><td><font
face=arial
size=-1><b>Company</b></font></td><td><font
face=arial
size=-1><b>Symbol</b></font></td><td
align=center><font
face=arial
size=-1><b>EPS<br>Estimate*</font></b></td><td
align=center><font
face=arial
size=-1><b>Time</b></font></td><td
align=center><font
face=arial
size=-1><b>Add
to
My<br>Calendar</b></font></td><td
align=center><font`...
收入
通告
1月15日星期三公司SYMBOLEPS
估算*时间添加 到
我的日历是的。bs4修复损坏的标签。。。为什么这是个问题?你是说它以前工作过吗?如果是,怎么做?如果没有,为什么不改变解析它的方式呢?
bs4
可以使用三种不同的底层解析器。看见它们都以不同的方式处理损坏的HTML。尝试所有这些。此外,如果雅虎真的在一个要删除的URL上提供这些代码,请向他们提交一个bug。也就是说,如果条款和条件明确禁止删除这个网站(这是很常见的),他们可能故意制作HTML,使其在所有主要浏览器中都能工作,但解析起来非常困难。
 <td align="center">
          <font face="arial" size="-1">
           <b>
            EPS
            <br>
             Estimate*
            </br>
           </b>
          </font>
         </td>
        </tr>
       </table>
      </td>
     </tr>
    </table>
   </p>
  </p>
  </p>
 </br>
</br>
</link>
</body>
</html>
<td align="center"><font face="arial" size="-1">
 <b>
Time
</b>
</font>
</td>