Python 使用BeautifulSoup解析HTML时遇到问题_Python_Html_Parsing_Beautifulsoup

Python 使用BeautifulSoup解析HTML时遇到问题

python html parsing

Python 使用BeautifulSoup解析HTML时遇到问题,python,html,parsing,beautifulsoup,Python,Html,Parsing,Beautifulsoup,我在使用beautifulsoup解析某些html时遇到问题例如，在这段HTML中，我想提取目标文本。HTML代码中更多的HTML是这样的，所以我想提取所有目标文本。我还想提取“tt0082971”，并将该数字和目标文本放在一个tab deimted文件的两行中。对于每个目标文本实例，“tt”后的数字都会发生变化 <td class="target"> <span class="wlb_wrapper" data-caller-name="search" data

我在使用beautifulsoup解析某些html时遇到问题

例如，在这段HTML中，我想提取目标文本。HTML代码中更多的HTML是这样的，所以我想提取所有目标文本。我还想提取“tt0082971”，并将该数字和目标文本放在一个tab deimted文件的两行中。对于每个目标文本实例，“tt”后的数字都会发生变化

<td class="target">
      <span class="wlb_wrapper" data-caller-name="search" data-size="small" data-tconst="tt0082971">
      </span>
      <a href="/target/tt0082971/">
       Target Text 1
      </a>

美化组。选择接受：
>>来自bs4导入组
>>>
>>>html=“”
... 
...       
...       
...       
...       
... '''
>>>soup=BeautifulSoup（html）
>>>对于汤中的td。选择（'td.target'）：
...     span=td.select（'span.wlb\u包装器'）
...     如果跨度：
...         打印span[0]。获取（'data-tconst'）#以获取'tt0082971`
...     打印td.a.text.strip（）#以获取目标文本
...
tt0082971
目标文本1

>>> from bs4 import BeautifulSoup
>>>
>>> html = '''
... <td class="target">
...       <span class="wlb_wrapper" data-caller-name="search" data-size="small" data-tconst="tt0082971">
...       </span>
...       <a href="/target/tt0082971/">
...        Target Text 1
...       </a>
...       </td>
... '''
>>> soup = BeautifulSoup(html)
>>> for td in soup.select('td.target'):
...     span = td.select('span.wlb_wrapper')
...     if span:
...         print span[0].get('data-tconst') # To get `tt0082971`
...     print td.a.text.strip() # To get target text
...
tt0082971
Target Text 1