Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/79.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何从html标记中的wikipedia术语条目中提取文本摘要?_Html_Beautifulsoup - Fatal编程技术网

如何从html标记中的wikipedia术语条目中提取文本摘要?

如何从html标记中的wikipedia术语条目中提取文本摘要?,html,beautifulsoup,Html,Beautifulsoup,在附加的html屏幕截图中,我想在“引理摘要”部分获得文本摘要。这通常是维基百科条目的第一句话。这是一个中文维基百科条目。我通过BeautifulSoup使用了这个代码 summaries = doc.getElements('div', attr='label-module', value='para').text 但这将返回html页面的所有文本部分,而不使用“引理摘要”。如果我这样做: summary = soup.select(".lemma-summary")

在附加的html屏幕截图中,我想在“引理摘要”部分获得文本摘要。这通常是维基百科条目的第一句话。这是一个中文维基百科条目。我通过BeautifulSoup使用了这个代码

summaries = doc.getElements('div', attr='label-module', value='para').text 
但这将返回html页面的所有文本部分,而不使用“引理摘要”。如果我这样做:

summary = soup.select(".lemma-summary")
这确实给出了正确的部分(只有summary部分),但它返回了一个ResultSet对象,我不知道如何深入到确切的文本部分

如何从此标记中提取文本部分

页面的URL位于此处:

https://baike.baidu.com/item/tt%E8%AF%AD%E9%9F%B3
我要提取此摘要文本:

"ika是深圳缇卡基因美容生物科技有限公司的一个化妆品品牌。"

我必须使用selenium来加载页面。如果不使用selenium就可以获得正确的html,那么也可以

import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument("--headless")


driver = webdriver.Chrome('chromedriver.exe', options=chrome_options)
url = 'https://baike.baidu.com/item/tt%E8%AF%AD%E9%9F%B3'
driver.get(url)
time.sleep(5)
html = driver.page_source
soup = BeautifulSoup(html, "html.parser")
这个

明白了吗

'TT语音App,提供游戏组队开黑、职业电竞培养、达人娱乐互动等游戏社交场景。\n[1]\xa0\n'
TT语音App,提供游戏组队开黑、职业电竞培养、达人娱乐互动等游戏社交场景。
[1]  
还有这个

summary = soup.select(".lemma-summary")
for s in summary:
    print(s.text)
明白了吗

'TT语音App,提供游戏组队开黑、职业电竞培养、达人娱乐互动等游戏社交场景。\n[1]\xa0\n'
TT语音App,提供游戏组队开黑、职业电竞培养、达人娱乐互动等游戏社交场景。
[1]  

请不要将图片作为代码发布。相反,用HTML编辑您的问题。什么是URL?什么是
doc.getElements
?@MendelG,请查看我的更新同一html中是否有多个“lemma summary”标记?是的。我不是html方面的专家,但我认为id属性应该是唯一的,其他人不确定。