Javascript 使用Jsoup解析html-返回带有robots元标记的文档
我的问题是,当我使用jsoup lib解析一个特定的url时,它一直很好,直到有一天我的解析被破坏,返回的文档有一些与旧文档不同的标记,它有一个名为“ROBOTS”的元标记 响应中标题的示例:Javascript 使用Jsoup解析html-返回带有robots元标记的文档,javascript,html,jsoup,bots,incapsula,Javascript,Html,Jsoup,Bots,Incapsula,我的问题是,当我使用jsoup lib解析一个特定的url时,它一直很好,直到有一天我的解析被破坏,返回的文档有一些与旧文档不同的标记,它有一个名为“ROBOTS”的元标记 响应中标题的示例: <head> <meta name="ROBOTS" content="NOINDEX, NOFOLLOW" /> <meta name="format-detection" content="telephone=no" /> <meta name="
<head>
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
<meta name="format-detection" content="telephone=no" />
<meta name="viewport" content="initial-scale=1.0" />
</head>
我的问题是,你认为我如何克服这个障碍?尝试使用其他几个解析javascript的库,但是没有帮助,结果也是一样的,也许我没有正确使用它
(我了解到meta tag robots是为防止机器人而设计的,最初是为搜索引擎设计的,我怎样才能绕过这种行为?我怎样才能像普通的每个浏览器客户端一样?您在回答中没有明确说明这一点,但我假设Jsoup发送的HTML与您的浏览器看到的不同。在这种情况下,您可能需要使Jsoup看起来像您的浏览器