Java (网络爬虫)如何从新闻网站获取新闻文章的文本

Java (网络爬虫)如何从新闻网站获取新闻文章的文本,java,php,python,web,jsoup,Java,Php,Python,Web,Jsoup,我要从一个新闻网站上得到这条消息 我必须得到大约1k的网站内容 链接如下: 这个网站发布每一条最新消息,新的url在id中添加1 readnews.php?id=16727 所以,下一个url将是 readnews.php?id=16728 问题是我想把文本从16000删减到17000 如何在Java中实现 Jsoup?还是其他网络爬虫 谢谢您也为它添加了python标签。请看beautifulsoup这里:Jsoup是一个HTML解析器,它可以帮助您抓取和解析HTML页面。如果您已经知道站点

我要从一个新闻网站上得到这条消息 我必须得到大约1k的网站内容

链接如下:

这个网站发布每一条最新消息,新的url在id中添加1

readnews.php?id=16727

所以,下一个url将是

readnews.php?id=16728

问题是我想把文本从16000删减到17000

如何在Java中实现

Jsoup?还是其他网络爬虫


谢谢

您也为它添加了
python
标签。请看
beautifulsoup
这里:

Jsoup是一个HTML解析器,它可以帮助您抓取和解析HTML页面。如果您已经知道站点导航的模式,那么Jsoup是不错的。但是,如果您想对网站的所有内容进行爬网,最好利用一些爬网器框架,例如或

首先,您需要确定需要从页面中刮取哪些内容。主题、作者、内容。使用css选择器提取所需内容,例如主题:

@Grab('org.jsoup:jsoup:1.9.2')
org.jsoup.nodes.Document doc = org.jsoup.Jsoup.connect("http://www.dcfever.com/news/readnews.php?id=16727").get();
String subject = doc.select("body > div.site_wrapper > div.canvas > div:nth-child(5) > div > div.col-md-left.col-lg-left.read_article > h1").text();
您可以在groovy控制台中运行上述代码,得到如下结果:

世界首部中片幅無反相機 Hasselblad X1D 登場
看一看。实现您所描述的应该非常简单,大多数组件都是用Java实现的。您可以增量地生成URL列表,并将其传递给MemorySpout,或者将其放入文件并使用FileSpout。它可以在ApacheStorm集群上以分布式模式运行,但由于您只处理一个站点,因此可伸缩性不是真正的问题,您可以在本地模式下运行它


或者也可以是一种选择,但您可能会发现StormCrawler更易于使用和定制

Jsoup工作正常。到目前为止,您取得了哪些成就?出现了一些网络错误,似乎jsoup不是一个稳定的库,它无法提取每个页面中的所有文本。最好使用java库。因为我将用java刮取、分析数据并运行整个程序。Thanksi通过jsoup根据css层提取内容。我必须连续浏览1000多个网页,比如readnews.php?id=16727到readnews.php?id=17727。我使用for循环从每个连续的网站中提取数据。结果部分成功。但是,当我向一定数量的网站提取文本时,比如说50。程序因错误而崩溃。有什么问题?这是否意味着jsoup不是一个适合不断爬行的爬虫程序?请提供清晰的消息等、异常、错误消息。事实上,Jsoup在处理web页面方面非常好,性能也非常好。更多细节请解释为什么我从网站抓取的文本大多遇到网络错误?是我的网络问题吗?还是我应该放慢抓取每个网站的速度?很难说没有看到日志。你使用了什么设置?你为什么不打开一个单独的问题,用“风暴爬虫”来标记它呢?可能是你的网络