Python 使用BeautifulSoup处理HTML中的非AscII字符

Python 使用BeautifulSoup处理HTML中的非AscII字符,python,python-2.7,beautifulsoup,Python,Python 2.7,Beautifulsoup,我从一个网站上提取数据,当查看源代码时使用,但当使用beautiful soup提取数据时,python解释器中显示为Tá。我正试图针对td中的数据。现在它是空的。像下面这样的东西不起作用,因为这不是Ascii字符。救命啊 result = <td class="xxx">&nbsp;</td> #Check to see if it is returning an empty string if not result: print 'empty' 结

我从一个网站上提取数据,当查看源代码时使用
,但当使用beautiful soup提取数据时,python解释器中显示为
。我正试图针对td中的数据。现在它是空的。像下面这样的东西不起作用,因为这不是Ascii字符。救命啊

result = <td class="xxx">&nbsp;</td>

#Check to see if it is returning an empty string
if not result:
    print 'empty'
结果=
#检查是否返回空字符串
如果没有结果:
打印“空”

我一直在使用该软件包来帮助我解码上游客户端传递给我的unicode。它似乎在我当前的所有测试用例中都有效。基本上,它采用unicode并试图将其转换为ASCII等价物。

无论是“Tá”还是“”(或带有文本nbsp的字符串)都不会是空字符串。此外,BeautifulSoup不会将“tá”转换为“tá”……您能给我们展示更多的来源吗?HTML的URL?当然可以。这是URL-这是TD中的数据:“”该注释中冒号后是否应该有URL?好了。:-)该源代码中大约有10亿个
s:如何缩小HTML的范围?(您如何计算
结果
?)如果您可以发布一个显示您的问题的最小测试用例,它将允许我们运行/调试它。是的,