Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/.net/23.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java apachenutch中的依赖性问题_Java_Mapreduce_Nutch - Fatal编程技术网

Java apachenutch中的依赖性问题

Java apachenutch中的依赖性问题,java,mapreduce,nutch,Java,Mapreduce,Nutch,尝试将ApacheNutch与hadoop集成。在使用ant构建驻留在运行时文件夹中的apache-nutch-1.15.job文件并尝试运行脚本bin/crawl后,出现了一些依赖项错误。 提取.job文件时,可以查看其中嵌入的所有必需依赖项。此外,嵌入的依赖项版本也没有问题 sh crawl -s <seed_file_directory_on_hdfs> <crawl_directory_on_hdfs> <num_rounds> 19/03/22 0

尝试将ApacheNutch与hadoop集成。在使用ant构建驻留在运行时文件夹中的apache-nutch-1.15.job文件并尝试运行脚本bin/crawl后,出现了一些依赖项错误。 提取.job文件时,可以查看其中嵌入的所有必需依赖项。此外,嵌入的依赖项版本也没有问题

sh crawl -s <seed_file_directory_on_hdfs> <crawl_directory_on_hdfs> <num_rounds>

19/03/22 01:41:22 INFO mapreduce.Job: Running job:job_1547155431533_115992
19/03/22 01:41:34 INFO mapreduce.Job: Job job_1547155431533_115992 running 
in uber mode : false
19/03/22 01:41:34 INFO mapreduce.Job:  map 0% reduce 0%
19/03/22 01:41:45 INFO mapreduce.Job: Task Id : 
attempt_1547155431533_115992_r_000001_0, Status : FAILED
Error: java.lang.RuntimeException: x point 
org.apache.nutch.net.URLNormalizer not found.
    at org.apache.nutch.net.URLNormalizers.<init>(URLNormalizers.java:146) 
    at org.apache.nutch.crawl.Generator$SelectorReducer.setup(Generator.java:378)
    at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:168)
    at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:627)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:389)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1924)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
sh爬网-s
19/03/22 01:41:22信息mapreduce。作业:正在运行作业:作业_1547155431533_115992
19/03/22 01:41:34信息mapreduce。作业:正在运行作业1547155431533
在优步模式下:false
19/03/22 01:41:34信息地图还原。作业:地图0%还原0%
19/03/22 01:41:45信息mapreduce。作业:任务Id:
尝试_1547155431533_115992_r_000001_0,状态:失败
错误:java.lang.RuntimeException:x点
找不到org.apache.nutch.net.URLNormalizer。
位于org.apache.nutch.net.URLNormalizers(URLNormalizers.java:146)
位于org.apache.nutch.crawl.Generator$SelectorReducer.setup(Generator.java:378)
位于org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:168)
位于org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:627)
位于org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:389)
位于org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
位于java.security.AccessController.doPrivileged(本机方法)
位于javax.security.auth.Subject.doAs(Subject.java:422)
位于org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1924)
位于org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

尝试通过更改脚本在类路径中提供这些提取的JAR,但没有帮助,问题仍然存在。

apache nutch的文档自2014年以来没有更新

要使用ApacheNutch对网页进行爬网,请使用ant构建项目,并通过将所有本地路径替换为hdfs路径来执行爬网到本地文件系统()的命令(如果要爬网内容并转储到hdfs上)