Nlp Wget下载维基百科文本

Nlp Wget下载维基百科文本,nlp,scrapy,wget,wikipedia,Nlp,Scrapy,Wget,Wikipedia,这就是我想做的: 给定一个初始url(例如),我想访问该页面上的所有链接(当然是相关链接)。 每个链接对应于另一个包含多个其他链接的页面(例如)。我想访问每个这样的链接,以便从中提取xml信息。 这可以使用wget完成吗?有人建议我应该使用Scrapy,但我在安装它时遇到了问题。 爬行的层次结构如下:科学家名单->美国科学家名单->布莱恩·海斯(以及更多的科学家) 我的目标是从这些维基文本中提取基本信息,比如一个人的姓名、组织、年龄等 附言:我是一个理解力很强的NOOB。你可以不去搜刮维基百科

这就是我想做的: 给定一个初始url(例如),我想访问该页面上的所有链接(当然是相关链接)。 每个链接对应于另一个包含多个其他链接的页面(例如)。我想访问每个这样的链接,以便从中提取xml信息。 这可以使用wget完成吗?有人建议我应该使用Scrapy,但我在安装它时遇到了问题。 爬行的层次结构如下:科学家名单->美国科学家名单->布莱恩·海斯(以及更多的科学家)

我的目标是从这些维基文本中提取基本信息,比如一个人的姓名、组织、年龄等


附言:我是一个理解力很强的NOOB。

你可以不去搜刮维基百科

有很多工具,所以你不必自己去抓取文章

当然,你也可以跳过维基百科

如果您仍然想从维基百科本身提取信息,请从利用维基百科自身的结构和格式开始。编写一个从中提取信息的工具将是一个良好的开端。如果你绝对想从文本中获取信息,首先要从一个。这将在文本中查找所有命名实体。如果您懒得部署现有的标记,那么您正在学习英语,并且您不介意出现一些额外的错误,您可以获取以大写字母开头的标记序列


从那里,您可能在数据中寻找特定的模式来获取信息。您可以使用解析器(如)来利用文本中语言的语法关系。也有一些系统在没有任何传统或明确语法知识的情况下寻找字符串中的模式,如system。根据您要查找的具体内容,其中一个可能比另一个更好。

在执行类似操作之前,请阅读相关文档。