Java中的网页爬网
我正在用Java编写一个网络爬虫。目标是一个用react编写的网站。我使用selenium将页面呈现为DOM树:Java中的网页爬网,java,reactjs,web-crawler,Java,Reactjs,Web Crawler,我正在用Java编写一个网络爬虫。目标是一个用react编写的网站。我使用selenium将页面呈现为DOM树: HtmlUnitDriver unitDriver = new HtmlUnitDriver(); unitDriver.get("https://www.instagram.com/9gag/?hl=en"); WebElement body = unitDriver.findElement(By.tagName("body")); 我对身体的理解是: <body clas
HtmlUnitDriver unitDriver = new HtmlUnitDriver();
unitDriver.get("https://www.instagram.com/9gag/?hl=en");
WebElement body = unitDriver.findElement(By.tagName("body"));
我对身体的理解是:
<body class="">
这几乎没什么。selenium渲染页面吗?我也在
google.com
上试用过,效果很好 这与网页爬行或硒有关吗?据我所知,硒是用于冲浪的,我用硒来做网页爬行;创建机器人、代理和自动测试。你知道Java中还有其他呈现react页面的无头浏览器吗?react使用JS动态重新构建DOM。因此,最初只有根元素,其余元素由JS添加。看见