Can';不要在网站上加载所有评论,因为它们';滚动时重新加载(通过java web客户端)

Can';不要在网站上加载所有评论,因为它们';滚动时重新加载(通过java web客户端),java,web-scraping,Java,Web Scraping,我正在开发一个其他人用糟糕的方式编写的java web刮板。任何事情都很难理解,也没有任何评论。它应该检索不同媒体网站上的文章和评论 我的问题是其中一个网站只显示10条评论,只有向下滚动才能加载更多评论。关键是,我需要所有的评论,不仅仅是前十条,但我不知道我的web客户端如何实现向下滚动,或者是否有其他更好的方法 经过一些研究,我发现配置一个非常高的InnerHeight可以解决这个问题,但我不知道它是如何工作的,我甚至不知道它是否可以解决我的问题 我试图浏览的网站是: 要加载评论,您必须单击

我正在开发一个其他人用糟糕的方式编写的java web刮板。任何事情都很难理解,也没有任何评论。它应该检索不同媒体网站上的文章和评论

我的问题是其中一个网站只显示10条评论,只有向下滚动才能加载更多评论。关键是,我需要所有的评论,不仅仅是前十条,但我不知道我的web客户端如何实现向下滚动,或者是否有其他更好的方法

经过一些研究,我发现配置一个非常高的
InnerHeight
可以解决这个问题,但我不知道它是如何工作的,我甚至不知道它是否可以解决我的问题

我试图浏览的网站是:

要加载评论,您必须单击“LIRE LES Commentaries”页面末尾的蓝色按钮

有人能帮忙吗


谢谢:)

滚动将发出更多的http请求,可能整个列表加载了一个ajax调用,可能返回json。只需找出请求并直接获取数据(可能是json)。否则,您可以使用selenium发出向下滚动的点击。我会扔掉旧刮刀并使用一些合适的工具,那里有刮刀架。@curiosa好的,我会检查一下!泰:)你刚才“说了我的话。”我曾经试着去刮雅虎!新闻评论-不幸的是,我求助于手动点击,然后将它们保存到一个文件中,以便进行Reg Ex处理。最近,我发现了Chrome开发者工具的另一个特性,它可以帮助在大量的
Java脚本中搜索特定的AJAX调用,许多页面都包含/使用这些调用。如果你发布了你试图抓取的站点的
URL
,并更新了你的问题,也许有人能够在页面上找到Java脚本,并调用/调用调用。这是你最好的选择。一些新闻网站(如雅虎新闻)已经开始禁止在其新闻来源上发表评论帖子…@Y2020-09谢谢你的评论。我刚刚更新了我的帖子,并加入了我想放弃的网站。经过一些研究,我发现我可以使用一个URL来访问JSON格式的评论,我可以从文章html中猜到这个URL。我还将检查AJAX。