Java （网络爬虫）如何从新闻网站获取新闻文章的文本_Java_Php_Python_Web_Jsoup

Java （网络爬虫）如何从新闻网站获取新闻文章的文本

java php python web

Java （网络爬虫）如何从新闻网站获取新闻文章的文本,java,php,python,web,jsoup,Java,Php,Python,Web,Jsoup,我要从一个新闻网站上得到这条消息我必须得到大约1k的网站内容链接如下：这个网站发布每一条最新消息，新的url在id中添加1 readnews.php？id=16727 所以，下一个url将是 readnews.php？id=16728 问题是我想把文本从16000删减到17000 如何在Java中实现 Jsoup？还是其他网络爬虫谢谢您也为它添加了python标签。请看beautifulsoup这里：Jsoup是一个HTML解析器，它可以帮助您抓取和解析HTML页面。如果您已经知道站点

我要从一个新闻网站上得到这条消息我必须得到大约1k的网站内容

链接如下：

这个网站发布每一条最新消息，新的url在id中添加1

readnews.php？id=16727

所以，下一个url将是

readnews.php？id=16728

问题是我想把文本从16000删减到17000

如何在Java中实现

Jsoup？还是其他网络爬虫

谢谢

您也为它添加了

python

标签。请看

beautifulsoup

这里：

Jsoup是一个HTML解析器，它可以帮助您抓取和解析HTML页面。如果您已经知道站点导航的模式，那么Jsoup是不错的。但是，如果您想对网站的所有内容进行爬网，最好利用一些爬网器框架，例如或

首先，您需要确定需要从页面中刮取哪些内容。主题、作者、内容。使用css选择器提取所需内容，例如主题：

@Grab('org.jsoup:jsoup:1.9.2')
org.jsoup.nodes.Document doc = org.jsoup.Jsoup.connect("http://www.dcfever.com/news/readnews.php?id=16727").get();
String subject = doc.select("body > div.site_wrapper > div.canvas > div:nth-child(5) > div > div.col-md-left.col-lg-left.read_article > h1").text();

您可以在groovy控制台中运行上述代码，得到如下结果：

世界首部中片幅無反相機 Hasselblad X1D 登場

看一看。实现您所描述的应该非常简单，大多数组件都是用Java实现的。您可以增量地生成URL列表，并将其传递给MemorySpout，或者将其放入文件并使用FileSpout。它可以在ApacheStorm集群上以分布式模式运行，但由于您只处理一个站点，因此可伸缩性不是真正的问题，您可以在本地模式下运行它

或者也可以是一种选择，但您可能会发现StormCrawler更易于使用和定制

Jsoup工作正常。到目前为止，您取得了哪些成就？出现了一些网络错误，似乎jsoup不是一个稳定的库，它无法提取每个页面中的所有文本。最好使用java库。因为我将用java刮取、分析数据并运行整个程序。Thanksi通过jsoup根据css层提取内容。我必须连续浏览1000多个网页，比如readnews.php？id=16727到readnews.php？id=17727。我使用for循环从每个连续的网站中提取数据。结果部分成功。但是，当我向一定数量的网站提取文本时，比如说50。程序因错误而崩溃。有什么问题？这是否意味着jsoup不是一个适合不断爬行的爬虫程序？请提供清晰的消息等、异常、错误消息。事实上，Jsoup在处理web页面方面非常好，性能也非常好。更多细节请解释为什么我从网站抓取的文本大多遇到网络错误？是我的网络问题吗？还是我应该放慢抓取每个网站的速度？很难说没有看到日志。你使用了什么设置？你为什么不打开一个单独的问题，用“风暴爬虫”来标记它呢？可能是你的网络