Python web爬虫中的索引步骤

Python web爬虫中的索引步骤,python,web-crawler,Python,Web Crawler,我正在写一个网络爬虫(聚焦网络爬虫),其中: 输入:seedsURL 输出:更大的seedsURL def crawl(seedURL, pageslimit): crawling code ... return list of urls crawled 现在我需要索引和存储数据,以方便快速准确的信息检索(搜索引擎) 我的爬虫程序返回一个URL列表,我如何将它们传递到索引阶段?我应该下载文本文件中每个页面的内容吗 是否有一些工具或库来执行索引步骤?还是必须手动完

我正在写一个网络爬虫(聚焦网络爬虫),其中:
输入:seedsURL
输出:更大的seedsURL

  def crawl(seedURL, pageslimit):
      crawling code ...

      return list of urls crawled 
现在我需要索引和存储数据,以方便快速准确的信息检索(搜索引擎)

  • 我的爬虫程序返回一个URL列表,我如何将它们传递到索引阶段?我应该下载文本文件中每个页面的内容吗
  • 是否有一些工具或库来执行索引步骤?还是必须手动完成
  • 你绝对应该使用这个网页爬行的工作。我将给你一个例子,说明如何使用它,以及你的web索引应该是怎样的。任何其他问题,去看看网站

    使用Scrapy提供的XPath表达式,可以提取所需的资源,包括整个文件

    例如:
    Darwin-展览的演变

    XPath表达式:
    //h1/text()

    为什么要这样做?使用h1标记,您可以将其设置为字典中的一个键。有了字典,你可以更容易地访问文件。像这样:

    web_index = {
        'Darwin': 'example.html',
        'Evolution': 'example.html'
    }
    

    最好将web索引放在字典中,因为它是一个键值对,您可以轻松地从中“搜索”,而不是像在列表中那样依赖它们的索引。

    我使用scrapy从特定网站中提取数据。但在另一个模块中,我需要抓取web的一部分(聚焦爬虫)来搜索相关信息。我构建了一个返回URL列表的URL,但对我来说,在数据库中搜索后对结果进行索引并不清楚。