Python 使用BeautifulSoup解析HTML时遇到问题
我在使用beautifulsoup解析某些html时遇到问题 例如,在这段HTML中,我想提取目标文本。HTML代码中更多的HTML是这样的,所以我想提取所有目标文本。我还想提取“tt0082971”,并将该数字和目标文本放在一个tab deimted文件的两行中。对于每个目标文本实例,“tt”后的数字都会发生变化Python 使用BeautifulSoup解析HTML时遇到问题,python,html,parsing,beautifulsoup,Python,Html,Parsing,Beautifulsoup,我在使用beautifulsoup解析某些html时遇到问题 例如,在这段HTML中,我想提取目标文本。HTML代码中更多的HTML是这样的,所以我想提取所有目标文本。我还想提取“tt0082971”,并将该数字和目标文本放在一个tab deimted文件的两行中。对于每个目标文本实例,“tt”后的数字都会发生变化 <td class="target"> <span class="wlb_wrapper" data-caller-name="search" data
<td class="target">
<span class="wlb_wrapper" data-caller-name="search" data-size="small" data-tconst="tt0082971">
</span>
<a href="/target/tt0082971/">
Target Text 1
</a>
美化组。选择接受:
>>来自bs4导入组
>>>
>>>html=“”
...
...
...
...
...
... '''
>>>soup=BeautifulSoup(html)
>>>对于汤中的td。选择('td.target'):
... span=td.select('span.wlb\u包装器')
... 如果跨度:
... 打印span[0]。获取('data-tconst')#以获取'tt0082971`
... 打印td.a.text.strip()#以获取目标文本
...
tt0082971
目标文本1
>>> from bs4 import BeautifulSoup
>>>
>>> html = '''
... <td class="target">
... <span class="wlb_wrapper" data-caller-name="search" data-size="small" data-tconst="tt0082971">
... </span>
... <a href="/target/tt0082971/">
... Target Text 1
... </a>
... </td>
... '''
>>> soup = BeautifulSoup(html)
>>> for td in soup.select('td.target'):
... span = td.select('span.wlb_wrapper')
... if span:
... print span[0].get('data-tconst') # To get `tt0082971`
... print td.a.text.strip() # To get target text
...
tt0082971
Target Text 1