Web scraping 在网站上使用jsoup刮取脚本标记中的文本

Web scraping 在网站上使用jsoup刮取脚本标记中的文本,web-scraping,jsoup,Web Scraping,Jsoup,我正在尝试使用Jsoup从网站检索js脚本中的数据 脚本位于标题中,如下所示: <head> <script1> function </script1> <link> <script2> var = someJsonData </script2> </head> 通过使用此代码,我可以检索我感兴趣的最后一个脚本,但我得到以下结果: <script> var

我正在尝试使用Jsoup从网站检索js脚本中的数据

脚本位于标题中,如下所示:

<head>
  <script1>
    function
  </script1>
  <link>
  <script2>
     var = someJsonData
  </script2>
</head>
通过使用此代码,我可以检索我感兴趣的最后一个脚本,但我得到以下结果:

<script>
   var = someJsonData;
</script>
有没有一个简单的方法来完成它,或者我必须使用一些函数手动解析它

有没有比使用Jsoup last函数更好的方法来获取最后一个脚本?(脚本是唯一包含字符串“window.datalayer”的脚本)

谢谢

可以使用strScript.data()获取脚本内容

供您参考

您是否看到了您上一个问题中的所有法国新闻评论?在这里,如果JSoup包不适合您,为什么不使用一个简单的老式香草
html.substring,html.indexOf(“
<script>
   var = someJsonData;
</script>
var = someJsonData