什么';这是从android应用程序中抓取网页的最佳方式

什么';这是从android应用程序中抓取网页的最佳方式,android,Android,我正在开发android应用程序,从html网页中获取一些数据,并对其进行解析,以便在应用程序中使用。 我尝试使用WebHarvest,但它似乎与android不完全兼容。 应用程序应该获取网页,解析它,获取所需的数据,并在应用程序中使用它。 那么,在安卓系统中刮取html页面的标准和推荐方法是什么呢?我很高兴使用TagSoup和XOM在安卓系统上解析网页。在类路径中使用这两个选项时,您可以执行以下操作: XMLReader tagsoup = XMLReaderFactory.createXM

我正在开发android应用程序,从html网页中获取一些数据,并对其进行解析,以便在应用程序中使用。 我尝试使用WebHarvest,但它似乎与android不完全兼容。 应用程序应该获取网页,解析它,获取所需的数据,并在应用程序中使用它。
那么,在安卓系统中刮取html页面的标准和推荐方法是什么呢?

我很高兴使用TagSoup和XOM在安卓系统上解析网页。在类路径中使用这两个选项时,您可以执行以下操作:

XMLReader tagsoup = XMLReaderFactory.createXMLReader("org.ccil.cowan.tagsoup.Parser");
Builder bob = new Builder(tagsoup);
Document html = bob.build("http://www.yahoo.com");
Nodes images = html.query("//img");

for (int index = 0; index < images.size(); index++) {
    Element image = (Element) images.get(index);
    String src = image.getAttribute("src").getValue();
    // do something with it...
}
链接:

XOM-->

塔格汤-->

当然,您必须捕获从Web页面构建XML文档时可能出现的异常

XPathContext context = new XPathContext("html", "http://www.w3.org/1999/xhtml");
Nodes images = html.query("//html:img", context);