使用Jsoup进行Web爬行不会';I don’我不想在java中得到我想要的东西
我使用以下代码从PlayStation网页中的所有元素中删除所有“href”属性:使用Jsoup进行Web爬行不会';I don’我不想在java中得到我想要的东西,java,web-scraping,Java,Web Scraping,我使用以下代码从PlayStation网页中的所有元素中删除所有“href”属性: stringurl=”https://store.playstation.com/#!/es es/ps4/cid=STORE-MSF75508-PS4CAT%7Cplatform~ps4%7Cname~asc/”; 字符串url2=“?smcid=nav%3Aps存储%3Ahome”; 整数juegos_总计=0; ArrayList all_links=新建ArrayList(); int z=0; 对于(
stringurl=”https://store.playstation.com/#!/es es/ps4/cid=STORE-MSF75508-PS4CAT%7Cplatform~ps4%7Cname~asc/”;
字符串url2=“?smcid=nav%3Aps存储%3Ahome”;
整数juegos_总计=0;
ArrayList all_links=新建ArrayList();
int z=0;
对于(int i=1;i您是否检查了文档中的内容information@eLRuLL文档内部是所有htmldocument document=getHtmlDocument(urlPage);
但下面的一行是空的Elements entradas=document.select(“div.gridViewportPaneWrapper li.cellGridGameStandard”);
。我正在使用相同的代码解析xbox.com,我没有任何问题,它也有登录。您是否检查了文档
是否包含您想要的页面的所有信息?若要阅读文档
@eLRuLL,您说得对,HTML不完整。我正在阅读并试图解决您共享的链接的问题,但我无法处理。我不明白的是,为什么在xbox.com上也有登录名。
String url = "https://store.playstation.com/#!/es-es/ps4/cid=STORE-MSF75508-PS4CAT%7Cplatform~ps4%7Cname~asc/";
String url2 = "?smcid=nav%3Aps-store%3Ahome";
int juegos_totales = 0;
ArrayList<String> all_links = new ArrayList<String>();
int z=0;
for (int i=1; i<50; i++) {
String urlPage = url+i+url2;
System.out.println("Comprobando entrada: " + urlPage);
if (getStatusConnectionCode(urlPage) == 200) {
Document document = getHtmlDocument(urlPage);
Elements entradas = document.select("div.gridViewportPaneWrapper li.cellGridGameStandard");
// Paseo cada una de las entradas
for (Element elem : entradas) {
Elements links = elem.getElementsByTag("a");
for (Element link : links ) {
all_links.add(link.attr("href"));
juegos_totales++;
}
z++;
}
System.out.println("Hay un total de " + juegos_totales + " juegos");
}
}