ApacheNutch和solr：查询_Apache_Solr_Nutch

ApacheNutch和solr：查询

apache solr

ApacheNutch和solr：查询,apache,solr,nutch,Apache,Solr,Nutch,我刚刚开始使用Nutch1.9和Solr4.10 浏览某些页面后，我看到运行此版本的语法已更改，我必须更新用于配置Nutch和Solr的某些xml 这个版本的包不需要Tomcat来运行。我开始练习 java-jarstart.jar 并检查了localhost:8983/solr/admin，它正在工作我在bin/url/seed.txt中植入了一个种子，种子是“simpleweb.org” 简而言之，Ran命令：/crawl-url-dir crawl-depth 3-topN 5 我在中间

我刚刚开始使用Nutch1.9和Solr4.10

浏览某些页面后，我看到运行此版本的语法已更改，我必须更新用于配置Nutch和Solr的某些xml

这个版本的包不需要Tomcat来运行。我开始练习

java-jarstart.jar

并检查了localhost:8983/solr/admin，它正在工作

我在bin/url/seed.txt中植入了一个种子，种子是“simpleweb.org”

简而言之，Ran命令：

/crawl-url-dir crawl-depth 3-topN 5

我在中间没有几个IO异常，因此避免了IO异常。 patch-hadoop_7682-1.0.x-win.jar并在nutch-site.xml中创建一个条目，并将jar文件放在nutch的lib中

运行Nutch后，已创建以下文件夹：

apache-nutch-1.9\bin\-dir\crawldb\current\part-00000

我可以在该路径中看到以下文件：

data<br>
index<br>
.data.crc<br>
.index.crc<br>

数据

索引

.data.crc

.index.crc

我想知道如何处理这些文件，下一步是什么？我们可以查看这些文件吗？如果是，如何进行

我将Nutch的爬网数据索引到Solr：

用于将solr与nutch链接（命令成功完成）命令./crawl url solr-depth 3-topN 5

为什么我们需要将Nutch爬网的数据索引到Solr中

使用Nutch进行爬行后

用于此操作的命令：

/crawl url-dir crawl-depth 3-topN 5我们可以查看爬网数据吗？如果可以，在哪里
或者只有在将Nutch爬网的数据索引到Solr后，我们才能查看爬网的数据实体
如何在Solr web中查看爬网数据
用于此操作的命令：/crawl-urls-solr-localhost:8983/solr/-depth 3-topN 5
尽管Nutch是为网络规模的搜索引擎而构建的，但现在不再是这种情况。目前，Nutch的主要目的是进行大规模的爬行。然后，您对爬网数据所做的操作将满足您的需求。默认情况下，Nutch允许向Solr发送数据。这就是你能跑的原因
crawl url crawl solraddress depth level

您还可以发出solr url参数。在这种情况下，nutch不会将已爬网的数据发送到Solr中。如果不将爬网数据发送到solr，您将无法搜索数据。抓取数据和搜索数据是两件不同的事情，但却有着密切的联系
通常，您会在爬网/段而不是爬网/爬网B中找到已爬网的数据。crawl db文件夹存储有关已爬网URL的信息、它们的抓取状态和下次抓取时间，以及一些其他有用的抓取信息。Nutch将实际爬网数据存储在爬网/段中
如果您希望有一种查看爬网数据的简单方法，可以尝试nutch 2.x，因为它可以通过Gora组件将其爬网数据存储到多个后端，如MySQL、Hbase、Cassandra等
要在solr上查看数据，只需向solr发出如下查询：
curl http://127.0.0.1:8983/solr/collection1/select/?q=*:*

否则，您可以通过添加索引器插件将数据推送到不同的存储区。目前，Nutch支持向Solr和Elasticsearch发送数据。这些索引器插件发送结构化数据，如标题、文本、元数据、作者和其他元数据
以下总结了Nutch中发生的情况：
seed list -> crawldb -> fetching raw data (download site contents) 
-> parsing the raw data -> structuring the parse data into fields (title, text, anchor text, metadata and so on)-> 
sending the structured data to storage for usage (like ElasticSearch and Solr).

每个阶段都是可扩展的，允许您添加逻辑以满足您的需求
我希望这能消除您的困惑。您可以在windows上运行nutch，我也是一名初学者。是的，在windows上安装有点困难，但它确实有效-此输入路径不存在问题可通过以下方式解决：-
将apache-nutch-1.9/lib中的Hadoop-core-1.2.0.jar文件替换为Hadoop-core-0.20.2.jar（来自maven）
然后将这个新文件重命名为hadoop-core-1.2.0
谢谢您的回复。我正在windows中使用cygwin开发nutch1.9。未为我创建爬网/分段。只有crawl/crawdb被创建。当我运行命令`./crawl-urls-crawl-depth 3-topN 5`时，我得到以下错误。如何解决！！！Fetcher:org.apache.hadoop.mapred.InvalidInputException:输入路径不存在：文件：/C:/cygwin64/home/apache-nutch-1.9-bin/apache-nutch-1.9/bin//crawl/segments/crawl\u generate您可以推荐一个在windows中设置nutch的有效教程。我对此感到失望，我不建议在windows中运行Nutch。这是不可预测的。尝试在virtual machine.am中运行。使用cygwin..它与unix环境不一样..因此我必须遵循的步骤必须与unix环境相同。。对..Nutch使用hadoop，而hadoop在cygwin中工作得并不好。我在cygwin没有用过Nutch，所以我在这里帮不了什么忙。顺便说一句，如果答案解决了你原来的问题，你能接受吗。