Web crawler 使用哪个网络爬虫将网站上的新闻文章保存到.txt文件中?

Web crawler 使用哪个网络爬虫将网站上的新闻文章保存到.txt文件中?,web-crawler,Web Crawler,我目前急需新闻文章来测试LSI实现(它是用外语编写的,所以没有现成的文件包) 所以我需要一个给定起始url的爬虫程序,比如说,跟踪所有包含的链接并将其内容保存到.txt文件中,如果我们能将格式指定为UTF8,我将非常高兴 我在这方面的专业知识为0,因此我请求您提供一些建议,让爬虫用于此任务。您正在寻找的是一个“刮板”,您必须编写一个。而且,你们可能会像任何人关心的那个样违反法律 您可以使用wget抓取站点。然后通过一些HTML呈现程序运行它(Lynxtext browser使用--dump HT

我目前急需新闻文章来测试LSI实现(它是用外语编写的,所以没有现成的文件包)

所以我需要一个给定起始url的爬虫程序,比如说,跟踪所有包含的链接并将其内容保存到.txt文件中,如果我们能将格式指定为UTF8,我将非常高兴


我在这方面的专业知识为0,因此我请求您提供一些建议,让爬虫用于此任务。

您正在寻找的是一个“刮板”,您必须编写一个。而且,你们可能会像任何人关心的那个样违反法律

您可以使用
wget
抓取站点。然后通过一些HTML呈现程序运行它(
Lynx
text browser使用
--dump HTML
选项充分地完成了这项工作),将HTML转换为TXT。您需要自己编写脚本,在每个下载的文件上调用Lynx,但这应该很简单。

我刚才提到了bbc,因为大家都知道它。。。就像我说的,我需要一种外语的文本,所以如果我找到一个这样做的程序,我就不会在bbc中使用它。一般来说,如果这违反了bbc的ToS,那么抓取可能违反ToS,idk。此外,堆栈溢出仅适用于编程问题。如果你正在寻找一个能为你做一切的程序,那么你应该把它发布给超级用户。