Web crawler 使用哪个网络爬虫将网站上的新闻文章保存到.txt文件中？_Web Crawler

Web crawler 使用哪个网络爬虫将网站上的新闻文章保存到.txt文件中？

web-crawler

Web crawler 使用哪个网络爬虫将网站上的新闻文章保存到.txt文件中？,web-crawler,Web Crawler,我目前急需新闻文章来测试LSI实现（它是用外语编写的，所以没有现成的文件包）所以我需要一个给定起始url的爬虫程序，比如说，跟踪所有包含的链接并将其内容保存到.txt文件中，如果我们能将格式指定为UTF8，我将非常高兴我在这方面的专业知识为0，因此我请求您提供一些建议，让爬虫用于此任务。您正在寻找的是一个“刮板”，您必须编写一个。而且，你们可能会像任何人关心的那个样违反法律您可以使用wget抓取站点。然后通过一些HTML呈现程序运行它（Lynxtext browser使用--dump HT

我目前急需新闻文章来测试LSI实现（它是用外语编写的，所以没有现成的文件包）

所以我需要一个给定起始url的爬虫程序，比如说，跟踪所有包含的链接并将其内容保存到.txt文件中，如果我们能将格式指定为UTF8，我将非常高兴

我在这方面的专业知识为0，因此我请求您提供一些建议，让爬虫用于此任务。

您正在寻找的是一个“刮板”，您必须编写一个。而且，你们可能会像任何人关心的那个样违反法律

您可以使用

wget

抓取站点。然后通过一些HTML呈现程序运行它（

Lynx

text browser使用

--dump HTML

选项充分地完成了这项工作），将HTML转换为TXT。您需要自己编写脚本，在每个下载的文件上调用Lynx，但这应该很简单。

我刚才提到了bbc，因为大家都知道它。。。就像我说的，我需要一种外语的文本，所以如果我找到一个这样做的程序，我就不会在bbc中使用它。一般来说，如果这违反了bbc的ToS，那么抓取可能违反ToS，idk。此外，堆栈溢出仅适用于编程问题。如果你正在寻找一个能为你做一切的程序，那么你应该把它发布给超级用户。