Java Selenium Web驱动程序getPageSource()将包含转义值的属性和值放错位置
在使用selenium时,刚才我在解析seleniumJava Selenium Web驱动程序getPageSource()将包含转义值的属性和值放错位置,java,selenium,selenium-webdriver,webdriver,Java,Selenium,Selenium Webdriver,Webdriver,在使用selenium时,刚才我在解析seleniumgetPageSource()方法的输出时出错。 firefox页面源上的实际元标记= <meta name="news_keywords" content="devo max,independence vote,no campaign,referendum,scotland \"no\" vote,scotland independence,scotland powers,scotland referendum,scotland
getPageSource()
方法的输出时出错。
firefox页面源上的实际元标记=
<meta name="news_keywords" content="devo max,independence vote,no campaign,referendum,scotland \"no\" vote,scotland independence,scotland powers,scotland referendum,scotland vote,scottish referendum" />
getPageSource()方法结果使用selenium=
<meta referendum"="" vote,scottish="" referendum,scotland="" powers,scotland="" independence,scotland="" vote,scotland="" no\"="" content="devo max,independence vote,no campaign,referendum,scotland \" name="news_keywords" />
这是非常荒谬的,并且会在进一步处理html输出时产生问题。
有任何建议、帮助或解决方法吗?来自文档:
getPageSource
java.lang.String getPageSource()
获取上次加载页面的源。如果页面已被修改
加载(例如,通过Javascript)后,无法保证
返回的文本是已修改页面的文本。请查阅
用于确定是否
返回的文本反映页面或文本的当前状态
上次由web服务器发送。返回的页面源是一个
底层DOM的表示:不要期望它被格式化
或以与从web服务器发送的响应相同的方式进行转义。
把它看作是艺术家的印象
返回:
当前页面的源
有什么办法让它按应有的方式运行吗?我是说正确的方法?