如何在Google App Engine上执行web抓取以查找Java中的特定链接页面？_Java_Regex_Google App Engine_Screen Scraping_Web Scraping

如何在Google App Engine上执行web抓取以查找Java中的特定链接页面？

java regex google-app-engine web-scraping

如何在Google App Engine上执行web抓取以查找Java中的特定链接页面？,java,regex,google-app-engine,screen-scraping,web-scraping,Java,Regex,Google App Engine,Screen Scraping,Web Scraping,我需要从不提供RSS提要的远程网站检索文本我所知道的是，我需要的数据总是在主页（http://www.example.com/），带有包含文本“发票报告””的链接例如： <a href="http://www.example.com/data/invoices/2010/10/invoices-report---tuesday-october-12.html">Invoices Report - Tuesday, October 12</a> 因此，我需要找到主

我需要从不提供RSS提要的远程网站检索文本

我所知道的是，我需要的数据总是在主页（

http://www.example.com/

），带有包含文本“

发票报告”

”的链接

例如：

<a href="http://www.example.com/data/invoices/2010/10/invoices-report---tuesday-october-12.html">Invoices Report - Tuesday, October 12</a>

因此，我需要找到主页上与此模式匹配的所有链接，然后从位于名为

是否有Java工具可以帮助实现这一点？是否有专门针对Google App Engine for Java的工具可以用来实现这一点？

请查看

您可以使用UrlFetch服务逐行读取www.example.com/index.html，并使用正则表达式查找“发票报告”

如果链接可能在多行上，您可能需要另一种阅读器

URL url = new URL("http://www.example.com/index.html");
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));
String line;

while ((line = reader.readLine()) != null) {
    checkLineForTextAndAddLinkOrWhatever(line);
}
reader.close();