JSOUP：从HTML文档解析Javascript字段？_Javascript_Parsing_Jsoup

JSOUP：从HTML文档解析Javascript字段？

javascript parsing

JSOUP：从HTML文档解析Javascript字段？,javascript,parsing,jsoup,Javascript,Parsing,Jsoup,我是JSOUP的新手，在使用标记或id值上的Element.select进行解析时没有遇到任何问题。我遇到的问题是如何在页面中筛选scrape javascript代码。我在这里加载文档： Document doc = Jsoup.connect(pageUrl) .userAgent(Agent) .timeout(5000) .get(); 我试图提取的javascript字段值如下所示： ar

我是JSOUP的新手，在使用标记或id值上的Element.select进行解析时没有遇到任何问题。我遇到的问题是如何在页面中筛选scrape javascript代码。我在这里加载文档：

Document doc = Jsoup.connect(pageUrl)
                .userAgent(Agent)
                .timeout(5000)
                .get();

我试图提取的javascript字段值如下所示：

arrayGPSLocation["0"]    = "-19473982376,6848295867";
arrayGPSLocation["1"]    = "-19473982376,6848296245";

因为这些数组值不在标准代码标记中，所以JSOUP是这样做的合适方法吗？我喜欢JSOUP的API。唯一的其他方法是拼凑一个字符串例程。。。即：

这个伪代码示例在解析大型页面时会出现严重的性能问题。有人知道如何使用JSOUP实现这一点吗？或者我应该编写自己的scraper吗？

使用JSOUP所能做的就是选择包含javascript代码的元素，将其值作为字符串并使用此字符串。就像你在示例中所做的那样。

是的，看起来你在这一点上是正确的。我从Mozilla遇到Rhino来进行javascript解析，但我认为在获取javascript部分后编写自己的脚本会更有效。

int start = pageBuffer.indexOf("arrayGPSLocation[\" + counter + \"]");
int end = pageBuffer.indexOf(";");
String result = pageBuffer.subString(start,end);