如何在Google App Engine上执行web抓取以查找Java中的特定链接页面?

如何在Google App Engine上执行web抓取以查找Java中的特定链接页面?,java,regex,google-app-engine,screen-scraping,web-scraping,Java,Regex,Google App Engine,Screen Scraping,Web Scraping,我需要从不提供RSS提要的远程网站检索文本 我所知道的是,我需要的数据总是在主页(http://www.example.com/),带有包含文本“发票报告””的链接 例如: <a href="http://www.example.com/data/invoices/2010/10/invoices-report---tuesday-october-12.html">Invoices Report - Tuesday, October 12</a> 因此,我需要找到主

我需要从不提供RSS提要的远程网站检索文本

我所知道的是,我需要的数据总是在主页(
http://www.example.com/
),带有包含文本“
发票报告”
”的链接

例如:

<a href="http://www.example.com/data/invoices/2010/10/invoices-report---tuesday-october-12.html">Invoices Report - Tuesday, October 12</a>

因此,我需要找到主页上与此模式匹配的所有链接,然后从位于名为

是否有Java工具可以帮助实现这一点?是否有专门针对Google App Engine for Java的工具可以用来实现这一点?

请查看

您可以使用UrlFetch服务逐行读取www.example.com/index.html,并使用正则表达式查找“发票报告”

如果链接可能在多行上,您可能需要另一种阅读器

URL url = new URL("http://www.example.com/index.html");
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));
String line;

while ((line = reader.readLine()) != null) {
    checkLineForTextAndAddLinkOrWhatever(line);
}
reader.close();