获取由JavaScript创建的链接的内容

获取由JavaScript创建的链接的内容,java,javascript,jsoup,Java,Javascript,Jsoup,我试图建立一个非常初级的爬虫程序,它可以通过特定的链接移动,并从中提取内容。我使用JSoup遍历页面上的链接并阅读所需内容 然而,我在其中一个网站上遇到了障碍。它是一种新闻门户网站,用户可以在上面发表自己的评论。我需要摘录这些评论。但是,如果有5条以上的评论,它们会分布在多个页面上,后续页面的链接由href中的JavaScript代码创建(而不是真正的链接)。是这样的: <a id="pager1_lnkPage2" href="javascript:WebForm_DoPostBackW

我试图建立一个非常初级的爬虫程序,它可以通过特定的链接移动,并从中提取内容。我使用JSoup遍历页面上的链接并阅读所需内容

然而,我在其中一个网站上遇到了障碍。它是一种新闻门户网站,用户可以在上面发表自己的评论。我需要摘录这些评论。但是,如果有5条以上的评论,它们会分布在多个页面上,后续页面的链接由href中的JavaScript代码创建(而不是真正的链接)。是这样的:

<a id="pager1_lnkPage2" href="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions(&quot;pager1$lnkPage2&quot;, &quot;&quot;, true, &quot;&quot;, &quot;&quot;, false, true))">2</a>

现在我不知道如何遍历这个JavaScript生成的链接。有没有办法获取这些链接引用的页面上的数据(从表面上看,这似乎不会创建任何新链接,因为URL在我们浏览其他页面时不会更改)

这是给你的参考。用于浏览多个页面的链接位于页面的右下角

这是嵌入在页面上的iframe中的主要故事

我在javax中也遇到了一个名为ScriptEngine的接口,但我不能很好地理解它,所以不能在这里使用它


谢谢

我从未使用过jsoup,但从它的描述(它是HTML解析器)和您试图以某种方式将javascript合并到它中的事实来看,这告诉我您为这项工作选择了错误的工具

在您的情况下,我宁愿选择(基于Node.js)或。如果您想坚持使用Java(Selenium有基于Java的插件),后者可能是更好的选择