Python web爬虫中的索引步骤
我正在写一个网络爬虫(聚焦网络爬虫),其中:Python web爬虫中的索引步骤,python,web-crawler,Python,Web Crawler,我正在写一个网络爬虫(聚焦网络爬虫),其中: 输入:seedsURL 输出:更大的seedsURL def crawl(seedURL, pageslimit): crawling code ... return list of urls crawled 现在我需要索引和存储数据,以方便快速准确的信息检索(搜索引擎) 我的爬虫程序返回一个URL列表,我如何将它们传递到索引阶段?我应该下载文本文件中每个页面的内容吗 是否有一些工具或库来执行索引步骤?还是必须手动完
输入:seedsURL
输出:更大的seedsURL
def crawl(seedURL, pageslimit):
crawling code ...
return list of urls crawled
现在我需要索引和存储数据,以方便快速准确的信息检索(搜索引擎)
Darwin-展览的演变
XPath表达式://h1/text()
为什么要这样做?使用h1标记,您可以将其设置为字典中的一个键。有了字典,你可以更容易地访问文件。像这样:
web_index = {
'Darwin': 'example.html',
'Evolution': 'example.html'
}
最好将web索引放在字典中,因为它是一个键值对,您可以轻松地从中“搜索”,而不是像在列表中那样依赖它们的索引。我使用scrapy从特定网站中提取数据。但在另一个模块中,我需要抓取web的一部分(聚焦爬虫)来搜索相关信息。我构建了一个返回URL列表的URL,但对我来说,在数据库中搜索后对结果进行索引并不清楚。