Python 2.7 按类属性美化组FindAll

Python 2.7 按类属性美化组FindAll,python-2.7,beautifulsoup,Python 2.7,Beautifulsoup,我有如下html代码: <div class="_cFb"> <div class="_XWk">Rabindranath Tagore</div> </div> 此代码返回空。但是,我可以访问其他不以下划线(\)开头的类属性。提取标签文本有什么想法吗?这很有效: >>> import bs4 >>> soup = bs4.BeautifulSoup('''<div class="_cFb">

我有如下html代码:

<div class="_cFb">  
<div class="_XWk">Rabindranath Tagore</div>
</div>
此代码返回空。但是,我可以访问其他不以下划线(\)开头的类属性。提取标签文本有什么想法吗?

这很有效:

>>> import bs4
>>> soup = bs4.BeautifulSoup('''<div class="_cFb">  
... <div class="_XWk">Rabindranath Tagore</div>
... </div>''', 'html.parser')
>>> soup.find_all('div', class_='_XWk')
[<div class="_XWk">Rabindranath Tagore</div>]
导入bs4 >>>汤=bs4.BeautifulSoup(“”) …泰戈尔 …'','html.parser') >>>汤。查找所有('div',类=''uxwk') [泰戈尔] 在此处找到按类搜索的方法:

顺便说一句,lxml框架也可用于解析HTML,它允许使用CSS选择器进行搜索。

这可以:

>>> import bs4
>>> soup = bs4.BeautifulSoup('''<div class="_cFb">  
... <div class="_XWk">Rabindranath Tagore</div>
... </div>''', 'html.parser')
>>> soup.find_all('div', class_='_XWk')
[<div class="_XWk">Rabindranath Tagore</div>]
In [87]: soup.find_all('div', attrs={'class':'_XWk'})
导入bs4 >>>汤=bs4.BeautifulSoup(“”) …泰戈尔 …'','html.parser') >>>汤。查找所有('div',类=''uxwk') [泰戈尔] 在此处找到按类搜索的方法:

顺便说一下,lxml框架也可以用于解析HTML,它允许使用CSS选择器进行搜索

In [87]: soup.find_all('div', attrs={'class':'_XWk'})
删除
\u XWk


删除
\u XWk

中的
,在类名前面有一个
。也许删除它会有所帮助?在类名前面有一个
。也许移除它会有所帮助?