Java 如何在线从不完整的网页（仅HTML）获取HTML表格内容？_Java_Html_Web Scraping_Html Table_Jsoup

Java 如何在线从不完整的网页（仅HTML）获取HTML表格内容？

java html web-scraping

Java 如何在线从不完整的网页（仅HTML）获取HTML表格内容？,java,html,web-scraping,html-table,jsoup,Java,Html,Web Scraping,Html Table,Jsoup,问题：如何通过Java获取HTML格式的表格内容？要求：必须是在线页面，而不是本地文件我想在以下位置提取第一个主题的url： https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3 我试着按照下面的代码在第3页找到第一个主题 String url_page3 = "https://discussions.apple.com/community/ipad/using_ipad?view

问题：如何通过Java获取HTML格式的表格内容？
要求：必须是在线页面，而不是本地文件

我想在以下位置提取第一个主题的url：

https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3

我试着按照下面的代码在第3页找到第一个主题

String url_page3 = "https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3";
String key = "td.jive-table-cell-subject > a[href]";
Document doc = Jsoup.connect(url_page3).maxBodySize(0).timeout(0).get();
Element e = doc.select(key).first();
System.out.println(e.attr("abs:href");

它返回第1页的第一个主题（即使我将连接的url更改为第4页、第5页……）

但为什么会发生这种情况？还有别的方法我可以试试吗？

原因很简单。哈希标记对服务器不重要，因此它只发送第一页。我猜其他页面是通过AJAX发送的，所以您需要检查网络流量以找到该url。您还可以阅读下一页。

谢谢。有没有一种解决方案，可以使用Jsoup或其他库来访问完整的页面，从而获得最终的html文件？对于第一个页面，您已经实现了这种方式，这样就可以了。在大多数浏览器中尝试按F12键，它会打开开发工具，在那里您应该能够跟踪AJAX请求。您现在感兴趣的URL。因为我现在在用手机，所以我现在不能帮你。非常感谢。我现在就试试。但我对网络编程是个新手。我期待着你的进一步指导。仍然不知道如何做。我找到了url：你可以自己更改参数吗？