Python 如何抓取不在标记中的web数据 乔登 " 1.姓名:jorden> 2.年龄:28 -- " 从111.111.111.111
我只需要 1.名称:jordenPython 如何抓取不在标记中的web数据 乔登 " 1.姓名:jorden> 2.年龄:28 -- " 从111.111.111.111,python,html,beautifulsoup,web-crawler,python-requests,Python,Html,Beautifulsoup,Web Crawler,Python Requests,我只需要 1.名称:jorden 2.年龄:28 xxx.选择(“#主内容”)这将返回所有内容,但我只需要其中的一部分。 因为它们不在任何标记中,我不知道该怎么做。您希望在相关文本之前找到标记(在您的示例中,),然后查看HTML解析树中的下一个同级: <div id="main-content" class="content"> <div class="metaline"> <span class="article-meta author">jorden<
2.年龄:28
xxx.选择(“#主内容”)
这将返回所有内容,但我只需要其中的一部分。
因为它们不在任何标记中,我不知道该怎么做。您希望在相关文本之前找到标记(在您的示例中,
),然后查看HTML解析树中的下一个同级:
<div id="main-content" class="content">
<div class="metaline">
<span class="article-meta author">jorden</span>
</div>
"
1.name:jorden>
2.age:28
--
"
<span class="D2"> from 111.111.111.111 </span>
</div>
一旦获得原始文本,将其剥离,等等。网站的任何链接?
text = soup.find("div", class_='metaline').next_sibling
print(text)
# "
# 1.name:jorden>
# 2.age:28
#
# --
# "
#