findAll beautifulsoup python无法正常工作

findAll beautifulsoup python无法正常工作,python,python-3.x,beautifulsoup,Python,Python 3.x,Beautifulsoup,当我使用findAll函数时,我遇到了一个问题findAll函数无法正常工作,无法区分标记的结尾,或者无法找到。它将所有html代码放入我定义的t1变量中。 有人能帮忙吗?我把它的输出放在这里 t1 = soup.findAll('td',{'data': 'Text:'}) print('( Text: ',t1.text,' )') 输出: ( Text: helloworld * , hello: * . hiii * ;hello * ; </td>

当我使用
findAll
函数时,我遇到了一个问题
findAll
函数无法正常工作,无法区分
标记的结尾,或者无法找到
。它将所有html代码放入我定义的
t1
变量中。 有人能帮忙吗?我把它的输出放在这里

t1 = soup.findAll('td',{'data': 'Text:'})
print('( Text:   ',t1.text,' )')
输出:

( Text:    helloworld  * , hello:  * . hiii * ;hello * ; </td>
      <td id="dtt" datetime="2018-12-06T19:08:56Z" data="Summary:">world hello</td>
      </tr>  

我还应该注意到,这对于任何其他
都可以正常工作,但仅对于这个
我就有问题了。我认为
*
有些错误或结尾处的空格。您的意见是什么?

您可以使用以下方法从脏输入中获得更清晰的解析结果:

    soup = bs4.BeautifulSoup(html, 'lxml-xml')

你能分享你正在解析的原始HTML的相关部分吗?另外,您是否尝试过切换到
html5lib
lxml
解析器。谢谢alecxe,切换到lxml工作。
    soup = bs4.BeautifulSoup(html, 'lxml-xml')