Python SeleniumWebDriver中的UTF编码
我目前有以下情况:Python SeleniumWebDriver中的UTF编码,python,selenium,utf-8,selenium-webdriver,html-parsing,Python,Selenium,Utf 8,Selenium Webdriver,Html Parsing,我目前有以下情况: from selenium import webdriver d = webdriver.Chrome() # request the url and get the page contents title = result.find("span", {"class": "episode"}).find("a").text <td class="title"><a href="/title/tt1844708/">La grande envolée&
from selenium import webdriver
d = webdriver.Chrome()
# request the url and get the page contents
title = result.find("span", {"class": "episode"}).find("a").text
<td class="title"><a href="/title/tt1844708/">La grande envolée</a>
<span class="year_type">(1927)</span><br />
</td>
但是,返回给我的“文本”是:
# Note the truncation on the word "envol"
<td class="title"><a href="/title/tt1844708/">La grande envol</a></td>
#注意单词“envol”的截断
但是,当我下载页面源代码时,它显示以下内容:
from selenium import webdriver
d = webdriver.Chrome()
# request the url and get the page contents
title = result.find("span", {"class": "episode"}).find("a").text
<td class="title"><a href="/title/tt1844708/">La grande envolée</a>
<span class="year_type">(1927)</span><br />
</td>
(1927年)
为什么webdriver响应中的文本会被截断?我如何确保它提供完整的utf-8编码文本?据我所知,您正在将内容传递给
BeautifulSoup
进行进一步解析
我不会这么做,因为selenium
本身可以很好地处理这个问题。例如,您可以使用:
示例(使用):