Java RSS阅读器,然后抓取页面内容

Java RSS阅读器,然后抓取页面内容,java,rss,nlp,web-crawler,Java,Rss,Nlp,Web Crawler,我已经在我的应用程序中集成了RSS阅读器。 如何使用RSS提要URL获取网页? 有没有使用URL直接在Java中执行此操作的免费api 我必须处理网页的内容(准确地说是新闻文章),并用它做一些算法处理 现在的问题是做一小部分的爬虫。是否有免费的轻量级api?要获取任何URL的“内容”,请查看java.net.URL类。它有一些有用的方法来获取内容,比如openConnection()和openStream()来获取内容。你说的“用RSS提要URL抓取网页”是什么意思?用户应输入http://st

我已经在我的应用程序中集成了RSS阅读器。 如何使用RSS提要URL获取网页? 有没有使用URL直接在Java中执行此操作的免费api

我必须处理网页的内容(准确地说是新闻文章),并用它做一些算法处理


现在的问题是做一小部分的爬虫。是否有免费的轻量级api?

要获取任何URL的“内容”,请查看
java.net.URL
类。它有一些有用的方法来获取内容,比如
openConnection()
openStream()
来获取内容。

你说的“用RSS提要URL抓取网页”是什么意思?用户应输入
http://stackoverflow.com/
应用程序将解析此页面以获取
http://stackoverflow.com/feeds
?或者您已经有了
http://stackoverflow.com/feeds/
,找到了
http://stackoverflow.com/questions/5048440/rss-reader-and-then-grabbing-the-page-content
是否要加载此页面?假设我从一个新闻站点接收到连续的RSS提要,并希望从该URL检索所有信息。(RSS提要主要是链接和一些描述)