如何使用Selenium/PhantomJS从JavaScript代码标记获取数据
我想从网页上获取信息。当我在浏览器中检查页面源代码时,我会得到简单的HTML标记,即如何使用Selenium/PhantomJS从JavaScript代码标记获取数据,javascript,java,html,selenium,phantomjs,Javascript,Java,Html,Selenium,Phantomjs,我想从网页上获取信息。当我在浏览器中检查页面源代码时,我会得到简单的HTML标记,即 <h3 class="Sans-17px-black-85%-semibold">my_title</h3> 我的书名 然而,当我运行PhantomJS时,我想要的信息以某种方式存储在CSS(?)中,由一个图像包围,即(来自driver.getPageSource()) {/*这里有许多代码行…*/{“$deletedFields”:[“课程”、“项目”、“说明”、“推荐”、“荣
<h3 class="Sans-17px-black-85%-semibold">my_title</h3>
我的书名
然而,当我运行PhantomJS时,我想要的信息以某种方式存储在CSS(?)中,由一个图像包围,即(来自driver.getPageSource())
有没有办法让
像浏览器一样变成HTML标签和/或用Selenium从
中获取我想要的数据?你是说你想在{/*这里有很多行代码…*/{“$d…”
?您能给我们看一下您的代码吗?谢谢,我想获取中的文本。我的代码是driver.get(By.cssSelector(“h3[class='Sans-17px-black-85%-semibold'])。getAttribute(“innerHTML”);
但是由于HTML标记由于某种原因出现在PhantomJS中,所以它不会work@jrsstill你能交叉检查css定位器是否有效&它是唯一的吗?如果它是公共的,请共享URL。谢谢
<img src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" style="display: none" class="datalet-bpr-guid-572130">
<code style="display: none" id="bpr-guid-572131">
{ /* many lines of code here ... */ {"$deletedFields":["courses","projects","description","recommendations","honors","entityLocale","organizations","region"],"locationName":"my_city,my_state","entityUrn":"urn:li:fs_position:(ACoAACJOkiYB8DxCiFxrW3EEdFpeIjMlZ2S84ck,997784449)","companyName":"my_company_name","timePeriod":"urn:li:fs_position:(ACoAACJOkiYB8DxCiFxrW3EEdFpeIjMlZ2S84ck,997784449),timePeriod","company":"urn:li:fs_position:(ACoAACJOkiYB8DxCiFxrW3EEdFpeIjMlZ2S84ck,997784449),company","title":"my_title","companyUrn":"urn:li:fs_miniCompany:5163810","$type":"com.linkedin.voyager.identity.profile.Position"} /* more lines of code */
</code></img>