什么'；这是从android应用程序中抓取网页的最佳方式_Android

什么'；这是从android应用程序中抓取网页的最佳方式

android

什么'；这是从android应用程序中抓取网页的最佳方式,android,Android,我正在开发android应用程序，从html网页中获取一些数据，并对其进行解析，以便在应用程序中使用。我尝试使用WebHarvest，但它似乎与android不完全兼容。应用程序应该获取网页，解析它，获取所需的数据，并在应用程序中使用它。那么，在安卓系统中刮取html页面的标准和推荐方法是什么呢？我很高兴使用TagSoup和XOM在安卓系统上解析网页。在类路径中使用这两个选项时，您可以执行以下操作： XMLReader tagsoup = XMLReaderFactory.createXM

我正在开发android应用程序，从html网页中获取一些数据，并对其进行解析，以便在应用程序中使用。我尝试使用WebHarvest，但它似乎与android不完全兼容。应用程序应该获取网页，解析它，获取所需的数据，并在应用程序中使用它。

那么，在安卓系统中刮取html页面的标准和推荐方法是什么呢？

我很高兴使用TagSoup和XOM在安卓系统上解析网页。在类路径中使用这两个选项时，您可以执行以下操作：

XMLReader tagsoup = XMLReaderFactory.createXMLReader("org.ccil.cowan.tagsoup.Parser");
Builder bob = new Builder(tagsoup);
Document html = bob.build("http://www.yahoo.com");
Nodes images = html.query("//img");

for (int index = 0; index < images.size(); index++) {
    Element image = (Element) images.get(index);
    String src = image.getAttribute("src").getValue();
    // do something with it...
}

链接：

XOM-->

塔格汤-->

当然，您必须捕获从Web页面构建XML文档时可能出现的异常

XPathContext context = new XPathContext("html", "http://www.w3.org/1999/xhtml");
Nodes images = html.query("//html:img", context);