在不下载web源代码的情况下使用java进行屏幕SCRP

在不下载web源代码的情况下使用java进行屏幕SCRP,java,screen-scraping,data-extraction,Java,Screen Scraping,Data Extraction,我试图从一个特定的网站提取信息,然后将其存储在一个单独的文本文件中。例如,我想去提取基因组序列。这些序列的格式为10个字符的组,仅包括由空格分隔的字母a、t、c、g。它们看起来像这样:acctgtagg。我已经寻找了几个小时的解决方案,但我找到的都是解析html代码的java库,比如jsoup。问题是,当我查看网站的源代码并搜索基因组序列时,它们似乎没有包含在源代码中,尽管我可以在DOM树中找到它们。有没有一种方法可以在不下载源代码的情况下通过编程读取网页上的实际数据?还是有更好的办法?请给我指

我试图从一个特定的网站提取信息,然后将其存储在一个单独的文本文件中。例如,我想去提取基因组序列。这些序列的格式为10个字符的组,仅包括由空格分隔的字母a、t、c、g。它们看起来像这样:acctgtagg。我已经寻找了几个小时的解决方案,但我找到的都是解析html代码的java库,比如jsoup。问题是,当我查看网站的源代码并搜索基因组序列时,它们似乎没有包含在源代码中,尽管我可以在DOM树中找到它们。有没有一种方法可以在不下载源代码的情况下通过编程读取网页上的实际数据?还是有更好的办法?请给我指出正确的方向,我将不胜感激

结果似乎是由AJAX调用生成的,您需要处理AJAX请求和完成,然后解析结果……所有这些都是您自己进行的AJAX调用……您需要类似headless browser的东西,例如HtmlUnit,它可以为您加载完整的网页。有一些使用Selenium的库也可以做到这一点。请参见